本文探讨了 Transformer 中标准的三个投影(Query、Key、Value)注意力机制是否绝对必要。通过系统地测试投影共享约束(具体包括 Q=K=V、Q=K=V 和 Q=K-V),作者证明了减少投影数量并不会显著影响性能。 研究人员发现,**Q=K=V(共享键值)**变体尤为有效,在几乎不损失困惑度(perplexity)的情况下,实现了与传统架构相当的性能,并将 KV 缓存大小降低了 50%。此外,该方法与分组查询注意力(GQA)和多查询注意力(MQA)等现有技术具有高度互补性。结合这些策略,可以将 KV 缓存的内存占用率最高降低 96.9%,从而显著减少终端设备推理的内存开销。 研究得出结论,键(Key)和值(Value)通常占据相似的表示空间,因此可以在不牺牲模型质量的前提下进行权重绑定。通过证明高性能模型可以在更少投影的情况下运行,该研究为在边缘设备上部署高效、内存优化的 Transformer 提供了实践路径。
为了创建一个虚拟的三路开关,作者配置了两个基于 Tasmota 的智能开关,通过 MQTT 相互同步状态。该设置运行了数月,直到一次停电导致了“复制风暴”,两个开关陷入了相互触发的无限循环。
作者最初认为是启动竞争条件(race condition),并尝试了各种类似启动计时器的“创可贴”式修复方案。在实时抓取日志后,真正的罪魁祸首显现:传入的镜像命令更新了开关的电源状态,但未能更新用于抑制回声的本地 `VAR1` 变量。由于传入的更改与过时的 `VAR1` 不匹配,规则总是被触发,从而导致了反馈循环。此外,作者还发现了一个硬件限制:其中一个开关(涂鸦设备)无法区分物理按键和 MQTT 命令。
最终的优雅解决方案是改变通信流程:开关不再直接发送电源指令,而是发布一个 `SYNC` 事件。接收方在切换电源前先更新其 `VAR1` 变量,从而成功抑制了回声。作者总结道,比起推测基于时间的漏洞,验证代码部署和观察实时日志要有效得多。
尽管社会上普遍呼吁以项目式学习和批判性思维练习等“进步”方法取代传统教学,但研究一再表明,这些方法的效果不如传统教学。
包括大规模的“后续追踪计划”(Project Follow Through)在内的多项研究显示,以结构化练习、明确教学和充分实践为特征的直接教学法,始终能带来更好的学术成果。与“死记硬背和书桌工作已过时”的观点相反,专业能力的建立从根本上依赖于大量知识和技能的积累,而这需要投入大量且专注的努力。
作者认为,激进的教育改革往往是误入歧途的,因为它忽视了学习的认知局限。虽然教育技术在游戏化或定制化教学方面展现出一定潜力,但它往往缺乏课堂环境的严谨性以及教师的细致指导。
归根结底,虽然高动力个体可以通过替代方法成功实现自主学习,但普通学生仍能从强调通过练习来掌握知识的结构化课程中受益最多。我们不应摒弃传统教学,而应致力于优化其效率,并承认建立专业能力没有捷径。
该项目介绍了首个经过形式化验证的多边形交集算法实现,利用 Lean 4 证明助手确保其在所有可能的几何配置下均保持正确。
计算几何算法因其罕见的边缘情况和内部集合的无限性,往往难以进行测试,而形式化验证确保了该算法的稳健性。该项目展示了人工智能辅助开发的重要演进:早期的模型在处理复杂证明策略时需要人工指导,而近期模型(如 Claude Opus 4.8)已能够自主生成经过验证的代码并驾驭复杂的证明,包括基于欧拉回路的逻辑。
至关重要的是,该架构将实现与验证进行了分离。人类只需审阅 87 行简短的规范,即可确保算法逻辑的严密性。信任完全建立在 Lean 检查器而非大语言模型之上,有效地将人工智能的生成速度与项目的数学可靠性解耦。这种方法能够在最大限度减少人工监督的同时,开发出复杂且经过验证的软件,尽管目前验证代码在计算性能上可能为了简洁性而有所妥协。用户可通过网页演示实时可视化这些经过验证的交集。