OpenAI 更新了其服务条款,针对“许可材料”(指部署在客户本地机器或私有云上的软件、代码或容器)加入了具体规定。 其中最关键的一项是强制删除条款:合同终止后,客户必须永久销毁该软件的所有副本。虽然此类表述通常出现在产品正式发布之前,但这释放了一个重要信号,表明了 OpenAI 在本地推理方面的战略方向。 对于考虑将 OpenAI 本地部署模型整合进安全敏感型工作流的企业和工作室而言,这一要求是规划时必须考虑的重点,而非微不足道的细节。随着合同到期后必须清除所有许可资产成为不可协商的服务条款,各机构在构建技术流程时,必须将这一“退出成本”纳入考量。
在伦敦一家住房福利办公室进行研究时,作者观察到一名处于困境中的女性,正在使用一台过时的 PlayStation Portable (PSP) 访问 GOV.UK 网站。尽管 PSP 的浏览器“非常糟糕”,但该网站简洁、轻量的 HTML 设计,让她在别无选择的情况下依然能够获取重要信息。
这个故事为网页开发者提供了一个至关重要的启示:无障碍设计不仅仅是关于现代设备,更是为了确保服务能够在用户所拥有的任何硬件上运行,尤其是在他们处于紧急状况时。无论是游戏机、智能电视还是老旧的智能手机,网站都应具备包容性,并在恶劣条件下保持功能完好。
作者主张,开发者应优先考虑纯 HTML,避免不必要的复杂性或对大型 JavaScript 的依赖。通过在低端设备和真实的受限环境下进行测试,开发者能够确保重要的公共服务对每个人都是可访问的。归根结底,目标不是创造华丽的网页体验,而是打造能够切实起作用的工具——即使在用户选择极其有限的情况下。正如那位女性所说,这可能“很烂”,但它确实能用,而这才是最重要的。
**Muon** 优化器正日益被用于最先进的语言模型中,但其核心的 **Newton-Schulz** 例程(高质量权重正交化所必需)带来了显著的计算开销。该例程依赖于昂贵的 $O(mn^2)$ 矩阵运算,成为了一个瓶颈,其耗时可占端到端训练时间的 17%。
为解决这一问题,作者引入了 **Gram Newton-Schulz**。该方法从根本上重构了例程,使其能够在较小的、对称的 Gram 矩阵($\mathbf{XX^\top}$)上运行,而非大型矩形权重矩阵($\mathbf{X}$)。这种转换减少了浮点运算量(FLOPs),并支持使用专门的对称矩阵乘法算子。
**核心贡献:**
* **算法优化:** 一种数学上等效且更高效的 Newton-Schulz 形式,大幅降低了对矩形矩阵乘法的依赖。
* **稳定性策略:** 一种“重启”技术,用于缓解半精度算术中因伪特征值导致的数值不稳定问题。
* **自定义算子:** 针对 Hopper 和 Blackwell 架构的高性能对称矩阵乘法(GEMM)算子。
* **性能表现:** GramMuon 实现了“免费的午餐”,在保持训练质量(困惑度误差在 0.01 以内)的同时,将 Kimi K2 等超大规模模型的正交化步骤运行时间缩短了 40–50%。
该实现已开源,可作为标准 Muon 的直接替代方案。