**Muon** 优化器正日益被用于最先进的语言模型中,但其核心的 **Newton-Schulz** 例程(高质量权重正交化所必需)带来了显著的计算开销。该例程依赖于昂贵的 $O(mn^2)$ 矩阵运算,成为了一个瓶颈,其耗时可占端到端训练时间的 17%。
为解决这一问题,作者引入了 **Gram Newton-Schulz**。该方法从根本上重构了例程,使其能够在较小的、对称的 Gram 矩阵($\mathbf{XX^\top}$)上运行,而非大型矩形权重矩阵($\mathbf{X}$)。这种转换减少了浮点运算量(FLOPs),并支持使用专门的对称矩阵乘法算子。
**核心贡献:**
* **算法优化:** 一种数学上等效且更高效的 Newton-Schulz 形式,大幅降低了对矩形矩阵乘法的依赖。
* **稳定性策略:** 一种“重启”技术,用于缓解半精度算术中因伪特征值导致的数值不稳定问题。
* **自定义算子:** 针对 Hopper 和 Blackwell 架构的高性能对称矩阵乘法(GEMM)算子。
* **性能表现:** GramMuon 实现了“免费的午餐”,在保持训练质量(困惑度误差在 0.01 以内)的同时,将 Kimi K2 等超大规模模型的正交化步骤运行时间缩短了 40–50%。
该实现已开源,可作为标准 Muon 的直接替代方案。
传记《史蒂夫·乔布斯传》声称,罗德·霍尔特(Rod Holt)为 Apple II 设计的电源是一项革命性的创新,并成为了行业标准,据称被所有现代计算机“剽窃”。
技术调查反驳了这一说法。在 1977 年 Apple II 发布的前几年,开关电源在 20 世纪 70 年代初就已在计算机和航空航天工业中成熟应用。半导体技术的进步,特别是高速开关晶体管和集成控制器电路的发展,推动了这一技术变革,而非苹果公司的独家设计。
虽然霍尔特的设计功能完好,但它依赖于分立元件,与当时业内采用的脉冲宽度调制(PWM)控制器集成电路相比,在技术上已处于停滞状态。对 Apple II 电源和 IBM PC 电源的详细对比显示,两者几乎没有任何设计上的共同点;它们是截然不同的架构。
归根结底,史蒂夫·乔布斯关于“剽窃”的说法,符合他夸大苹果在技术史上作用的倾向。尽管 Apple II 普及了紧凑型电源,但其具体设计已进入死胡同,对现代工业几乎没有影响。电源革命的真正功劳属于广大的工程师群体以及全球半导体技术的飞速演进。
尽管许多人认为有意义的旅行需要远赴异域文化,但西蒙·斯佩蒂(Simon Späti)认为,探索的精神可以在自家后院找到。他提倡“就在此地旅行”,即拥抱自发性——随机选择一个方向,摒弃死板的计划,让直觉引导旅程。
斯佩蒂一家经常践行这种方式,他们不设定目的地便踏上旅途。只要对意外保持开放心态,他们经常能在离家仅几分钟路程的地方发现隐秘的宝藏,例如独特的步行小径、风景优美的树林或当地的艺术装置。
这种方法几乎无需准备,减少了传统旅行的压力,并鼓励人们与周围环境建立更深层的联系。无论你是否发现了“必看”的地标,这种本地探索的行为都是一种放松且有益的方式,能够满足你的好奇心。归根结底,最难忘的冒险往往不是跨越重洋,而是仅仅在自己身处的环境中漫步。
“Gentlemen”勒索软件团伙已成为全球第二活跃的组织,这在很大程度上归功于其以 90/10 的收入分成比例吸引了大量经验丰富的黑客。安全公司 Check Point 及其他研究人员通过追踪发现,该组织的管理者使用“Zeta88”和“Hastalamuerte”等化名进行活动。
网络情报调查通过关联论坛注册信息、Telegram 账户、电子邮件地址和电话号码,将这些化名指向了居住在俄罗斯伊热夫斯克的 36 岁男子亚历山大·安德烈耶维奇·亚帕耶夫(Alexander Andreevich Yapaev)。公共记录和社交媒体甚至显示,亚帕耶夫在一家俄罗斯工业公司担任合法的市场营销职务。
调查显示,该团伙使用暴力破解的 VPN 凭据获取初始访问权限,并越来越多地利用人工智能开发恶意软件和管理攻击后的活动。专家认为,该管理员操作安全意识相对薄弱,这可能源于他早期在黑客圈的起步阶段水平较低,以及只要不针对俄罗斯国内实体,俄罗斯境内的网络犯罪分子往往享有相对的豁免权。尽管各方试图联系亚帕耶夫,但他并未回应置评请求。