作者运用“混沌游戏”(Chaos Game)——一种生成谢尔宾斯基三角(Sierpinski Gasket)的数学方法——作为阅读大卫·福斯特·华莱士《无尽的玩笑》的隐喻。在混沌游戏中,在顶点之间随机绘制点,最终会显现出复杂的分形图案。同样,作者认为,初读这部小说时,感受到的正如杂乱无章的“噪音”或“灼烧感”。 通过反复重读,这些零散的印象会凝聚成一个结构严谨、连贯的整体。该隐喻突显了三个关键的平行之处: 1. **最初的困惑:** 正如模拟中的最初几个点无法显现出分形一样,初读也无法捕捉到小说的结构。 2. **吸引子:** 无论读者的切入点如何(无论是哪个角色或情节吸引了读者),持续的投入都会使读者收敛于对该书架构相同的深刻理解。 3. **非线性进程:** 由于混沌游戏中的每一步仅取决于前一个位置,因此该书鼓励非顺序的重读,因为任何场景都有助于读者构建并完善文本的心理地图。 归根结底,重读《无尽的玩笑》是一个将混沌转化为深思熟虑、错综复杂之设计的过程。
浮点运算中的标准“舍入到最近”(RNE)会引入一种随时间累积的持续偏差。在执行大量小规模更新(例如神经网络训练)时,RNE 产生的舍入误差会导致数值停滞,因为每次更新都会被舍入回同一个可表示的数字。相反,随机舍入(SR)产生的误差是无偏的,其均值为零。虽然这些更新包含更多噪声,但它们会在长时间内相互抵消,从而使总和能够按预期增长。
在数学上,有偏误差呈线性增长($O(n)$),而无偏误差则以随机游走的速度增长($O(\sqrt{n})$)。这种差异对训练稳定性至关重要。实验表明,在优化器状态中使用带有 SR 的 BF16 可以达到与 FP32 精度相当的性能,而带有 RNE 的 BF16 则会导致训练损失过早陷入平稳。通过在优化器内核中用 SR 替换 RNE(这无需额外的内存或带宽),从业者可以在获得 FP32 级精度的同时,有效地将每个参数的内存占用从 10 字节降低至 6 字节。简而言之,消除舍入偏差是维持低精度训练收敛性的关键。