这项研究调查了Transformer模型令人惊讶地学习和预测由排列线性同余生成器(PCG)生成的序列的能力,PCG是一种复杂的伪随机数生成器。尽管PCG比简单的生成器更复杂,Transformer仍然能够成功预测未知的PCG序列,即使仅限于预测单个输出位。 该研究表明了一种缩放规律:预测准确性随着模型和数据集的增大而提高,但对于非常大的模数(≥ 2<sup>20</sup>)需要课程学习——首先在较小的模数上进行训练。值得注意的是,当在多个PCG上同时训练时,模型会识别出共享的结构模式。 对模型嵌入层的分析揭示了一种有趣的聚类现象:输入被分组到旋转不变的聚类中,表明了一种在不同模数大小之间传递学习到的表示的机制。这项工作突出了Transformer学习复杂数学结构的能力,并深入了解了它们的内部表示。
人工智能正在迅速扩展到传统工作领域之外,并进入个人亲密关系的领域。大约20英镑,容易获得的“生物反馈”设备承诺通过实时调整提供个性化体验——学习并响应亲密的生物识别数据。
虽然看似无害,但这引发了重大的隐私问题。这些设备不仅仅是*做*某事,它们还在*观察*、*测量*,并可能*记录*关于用户反应和偏好的极其敏感信息——这些数据比典型的在线活动更具揭示性。
核心问题不是技术本身,而是这些高度个人数据的命运:它存储在哪里,谁可以访问它,以及如何保护它。这些数据很容易成为庞大的个人信息市场中的另一种商品,而大多数人更愿意将其保密。这些设备的便利性和新颖性正在微妙地超过必要的谨慎,突显了人工智能以意想不到和深刻的个人方式了解我们。
## 从“劣质代码”到规范驱动开发,借助Acai.sh
本文详细描述了从应对AI生成代码不一致性(“劣质代码”)的困境,到使用名为Acai.sh的工具,采用更结构化、规范驱动的方法的过程。作者发现,详细且维护良好的规范极大地提高了代码质量,并减少了不断重新提示和调试的需求。
认识到上下文窗口和会话稳定性的局限性,作者拥抱详细的文档记录——特别是编写健全的PRD和TRD。这促成了Acai.sh的创建,该系统围绕“feature.yaml”规范构建,其中包含编号的“验收标准ID”(ACIDs),并直接链接到代码和测试。
Acai.sh提供CLI、Web仪表盘和API来管理规范、跟踪实施进度并促进审查。该工作流程强调规范优先开发:先编写规范,然后使用代理来实现它,最后基于ACID覆盖率进行审查。
作者承认潜在的缺点——需要规范纪律,YAML格式的学习曲线——但认为清晰性、可测试性和可维护性的好处超过了成本。最终,Acai.sh旨在将重点从*生成*代码转移到定义*代码应该做什么*,为更可靠和可扩展的AI辅助开发铺平道路。