在 Erlang/Elixir 中,集群通常采用全网状拓扑,但也可以配置为稀疏连接。这就带来了一个挑战:当连接不均匀时,单个节点如何映射集群的拓扑结构? 作者探索了“蠕虫式(worming)”遍历集群的方法——利用自传播代码执行洪泛填充遍历。由于集群节点不会自动共享代码,该解决方案涉及: 1. **代码注入**:使用 `Kernel.ParallelCompiler` 和 `:code.load_binary` 创建一个 `Probe` 模块,可以在运行时将其分发并加载到远程节点上。 2. **拓扑映射**:实现一个探测器,查询节点的邻居,然后递归地在这些邻居上触发自身,从而构建集群边缘的完整映射。 3. **本地测试**:利用 `:peer` 模块模拟自定义网状集群,并验证遍历机制。 作者指出,虽然这种方法能够实现强大的内省功能,但必须处理“组长(group leader)”问题,以防止节点之间产生意外的副作用连接。归根结底,这项实验是对 BEAM 运行时内省的一次深入探索,其灵感源于 Joe Armstrong 对分布式系统优雅的处理方式。
在伦敦一家住房福利办公室进行研究时,作者观察到一名处于困境中的女性,正在使用一台过时的 PlayStation Portable (PSP) 访问 GOV.UK 网站。尽管 PSP 的浏览器“非常糟糕”,但该网站简洁、轻量的 HTML 设计,让她在别无选择的情况下依然能够获取重要信息。
这个故事为网页开发者提供了一个至关重要的启示:无障碍设计不仅仅是关于现代设备,更是为了确保服务能够在用户所拥有的任何硬件上运行,尤其是在他们处于紧急状况时。无论是游戏机、智能电视还是老旧的智能手机,网站都应具备包容性,并在恶劣条件下保持功能完好。
作者主张,开发者应优先考虑纯 HTML,避免不必要的复杂性或对大型 JavaScript 的依赖。通过在低端设备和真实的受限环境下进行测试,开发者能够确保重要的公共服务对每个人都是可访问的。归根结底,目标不是创造华丽的网页体验,而是打造能够切实起作用的工具——即使在用户选择极其有限的情况下。正如那位女性所说,这可能“很烂”,但它确实能用,而这才是最重要的。
**Muon** 优化器正日益被用于最先进的语言模型中,但其核心的 **Newton-Schulz** 例程(高质量权重正交化所必需)带来了显著的计算开销。该例程依赖于昂贵的 $O(mn^2)$ 矩阵运算,成为了一个瓶颈,其耗时可占端到端训练时间的 17%。
为解决这一问题,作者引入了 **Gram Newton-Schulz**。该方法从根本上重构了例程,使其能够在较小的、对称的 Gram 矩阵($\mathbf{XX^\top}$)上运行,而非大型矩形权重矩阵($\mathbf{X}$)。这种转换减少了浮点运算量(FLOPs),并支持使用专门的对称矩阵乘法算子。
**核心贡献:**
* **算法优化:** 一种数学上等效且更高效的 Newton-Schulz 形式,大幅降低了对矩形矩阵乘法的依赖。
* **稳定性策略:** 一种“重启”技术,用于缓解半精度算术中因伪特征值导致的数值不稳定问题。
* **自定义算子:** 针对 Hopper 和 Blackwell 架构的高性能对称矩阵乘法(GEMM)算子。
* **性能表现:** GramMuon 实现了“免费的午餐”,在保持训练质量(困惑度误差在 0.01 以内)的同时,将 Kimi K2 等超大规模模型的正交化步骤运行时间缩短了 40–50%。
该实现已开源,可作为标准 Muon 的直接替代方案。