这项实验测试了大型语言模型(LLM)是否能准确预测倒入陶瓷杯中的沸水冷却速率。尽管实验设置看似简单——将8盎司沸水(226.8克)倒入一个1.25磅的杯子,环境温度为20°C——作者承认这个问题很复杂,涉及传导、对流、蒸发、辐射以及许多未指明的变量。
几个LLM(Kimi、Gemini、GPT、Claude、Qwen、GLM)被要求提供一个预测水温随时间变化的方程。所有模型都生成了基于指数衰减项的方程,试图模拟快速和缓慢的热传递。然而,与实际实验(每5-300秒记录一次温度)相比,LLM的预测结果*不准确*——低估了初始冷却速率,高估了后期的速率。
Claude 4.6 Opus 表现最好,但仍然不完美,而且成本最高。作者得出结论,虽然LLM可以提供合理的近似值,但目前还不足以准确模拟复杂的物理现象,而人类直觉(在这种情况下,观察到更快的初始冷却)仍然很有价值。
## 过山车大亨的优化秘诀
《过山车大亨》(1999)至今仍以其令人印象深刻的性能而闻名,在1999年的硬件上模拟了复杂的游乐园。这一壮举很大程度上归功于创作者克里斯·索耶决定几乎完全用汇编语言编写游戏,与当时的高级语言相比,这使得代码性能更高。
除了汇编语言,积极的优化至关重要。游戏巧妙地使用不同的数据类型来表示货币值——较小的金额使用较小的数据类型——现在在现代CPU上这种做法已不再必要。数学运算经常被更快的位移运算所取代,游戏公式围绕2的幂设计,以便实现这一点。
至关重要的是,索耶同时担任程序员*和*游戏设计师,这使得“为性能而设计”成为可能。例如,游客不会主动*寻找*游乐设施,而是漫游并偶然发现它们,从而大大简化了寻路。甚至寻路失败(“找不到出口!”)也成为了一个古怪的游戏元素。人群拥堵的处理方式是简单地忽略碰撞,影响游客的幸福度而不是CPU负载。
这些选择表明,深思熟虑的游戏设计与底层编程相结合,创造了一种独特且优化的体验——技术技能和创意决策的“完美风暴”。虽然现代开发通常将这些角色分开,但《过山车大亨》强调了统一愿景在实现卓越性能方面的力量。
## 伊斯坦布尔与精炼的咖啡用水文化
在现代咖啡科学出现之前,伊斯坦布尔的奥斯曼宫殿就展现了对水对咖啡品质影响的惊人理解。从16世纪开始,苏丹的咖啡不仅仅关于咖啡豆,而是一种以特定水源——以其清澈和甜度而闻名的Gümüşsuyu泉水为中心的精心策划的仪式。
一个专门的队伍,Gümüşsuyu Ocağı,用涂有焦油的皮革囊运输这种水,以防止风味污染,这凸显了对保存技术的实用意识。在托普卡帕宫内,精细的准备过程类似于一个实验室,每一个方面——从泡沫到香气——都受到水的影响。
这不仅仅是关于“最好的水”;Gümüşsuyu具有象征意义,与清洁甚至赋予生命的能力相关联。提供咖啡总是包括先喝一杯水来清洁味蕾,将体验提升到味觉之外,成为一种仪式。
这种历史实践呼应了现代精品咖啡对水硬度、碱度和pH值的关注,表明了对最佳冲泡的持续追求。伊斯坦布尔咖啡的故事表明,优先考虑水并不是一种新趋势,而是一种历史悠久的传统——证明了水在制作一杯完美咖啡中持久且常常被低估的作用。
这个工具可以将一个AI编码代理转变为一个自主研究者,能够运行数十个实验来优化代码或系统。只需提供一个`researcher.md`文件和代码库,该代理就会设计、执行和分析实验——自动提交成功的更改并撤销失败的更改。
示例展示了延迟降低,成功地用KD树替换了缓慢的邻居搜索,在30多次实验后,p99延迟从142毫秒降低到89毫秒。
这种“自动研究”不仅限于机器学习;它适用于API性能、测试速度、包大小和算法调整等领域。该代理管理一个专门的`.lab/`目录来跟踪实验历史记录,与主git仓库分离,并利用“Yggdrasil”来持久化项目上下文的记忆。它被设计成一个自我改进、不知疲倦的研究者,用于任何可衡量的目标。
## 个人计算的失落艺术
本文反思了计算潜力与其现状之间日益增长的脱节。作者哀叹了“为了乐趣而编程”的丧失,那时软件可以是短暂的和实验性的,纯粹为了个人探索而存在——一个代码的“肥皂泡”。
如今,编程似乎被专业标准和工业工具所主导,模糊了业余爱好者和专业人士之间的界限。虽然更容易获得强大的工具*理应*是赋权的,但它却导致了一种约束感,这种感觉是由“最佳实践”和持续的监控所驱动的。作者将此与艺术领域形成对比,在艺术领域,业余和专业设备及经验之间仍然存在清晰的区别。
他们提倡为玩乐的,甚至是“糟糕的”代码争取空间,拥抱元编程等技术用于个人项目——为即时享受而构建的代码,而非长期维护。这并非要放弃质量,而是要优先考虑一套不同的价值观:自由、实验和创造的乐趣。最终,作者担心未来技术只会服务于消费,这与对自动化以及保持与创造力和目标联系的担忧相呼应。
这篇文章中没有什么值得引用的内容,但我想强调三点。首先,当你访问该页面时会看到:一个通知弹窗、一个遮挡文章的邮件订阅弹窗,以及一个带有至少五个可见广告的半透明背景。欢迎垫。其次,一旦你通过“欢迎垫”:是的,五个广告、一个标题和一个副标题。一点点文章。第三,这个网页初始加载时高达37MB。但这还不是最糟糕的部分。在我开始写这篇文章的五分钟里,网站已经下载了近半吉字节的新广告。带宽盛宴。我们很幸运拥有许多优秀的RSS阅读器,可以摆脱这些无意义的东西。