目前 AI 智能体在编写有效测试方面表现欠佳,这主要是因为它们模仿了人类代码中普遍存在的糟糕测试习惯。然而,作者认为,如果能引导智能体遵循永恒的软件工程原则,而非任其自行发挥,它们完全可以编写出高质量且有意义的测试。 解决方案在于为智能体提供基于成熟方法论的结构化“技能”。具体而言,作者主张采用 **Kent Beck 的 TDD 准则**及其自创的 **“指定-编码-实现”(SEF)循环**。为了进一步提升质量,作者还引入了“测试设计评审”技能——由另一个智能体对代码进行审查,确保其侧重于结果而非实现细节,并配合“软件设计评审”来维护整体架构的规范性。 作者的经验表明,当 AI 受到这些经典原则的约束时,它会成为更可靠的工具。核心结论是:AI 开发中最大的生产力提升,并非来自原始算力的堆砌,而是通过强制模型遵循那些经过实战检验的、不可动摇的软件设计方法论来实现。
文中指出,Cloudflare 首席执行官马修·普林斯(Matthew Prince)声称机器人流量已超过人类流量,这是一种歪曲公司自身数据的“魔术”骗局。
作者认为,普林斯通过选择性地引用“仅限 HTML”的流量统计数据来制造虚假叙事,却无视了他自己仪表盘上显示的“全部”流量数据——后者证实约三分之二的互联网流量仍来自人类。此外,该评论反驳了普林斯将“代理型”人工智能机器人视为流量增长主要动力的说法。作者指出,“代理型”流量在统计学上微不足道,而人工智能相关流量的实际增长,是由用于训练大语言模型的大规模抓取机器人所驱动的。
最终,文章认为这一叙事是一种经过精心计算的销售策略,旨在将其“付费抓取”服务商业化。通过将大规模抓取工具与代理型工具混为一谈并歪曲整体数据,这位首席执行官被指控编造了一种危言耸听的趋势,以谋取商业利益。
这项分析旨在调查关于“由 Claude 辅助生成的代码提交导致 rsync 工具稳定性下降”的说法。报告通过分析 46 个版本,对比了受 Claude 影响的版本与该项目历史缺陷率的分布情况。
数据表明,没有任何统计学证据支持这种负面影响。两个 Claude 辅助生成的版本均处于历史缺陷率的“中间 50%”区间内。统计学检验——包括精确置换检验(p=46%)和费希尔精确检验(p=74%)——证实这些版本与历史随机样本并无区别。值得注意的是,该项目历史上缺陷最多的版本出现在 AI 引入之前,但当时并未引发类似的公众强烈抗议。
作者认为,这种“愤怒”是认知偏见而非实证现实的产物。人们所感知到的回归问题增加,源于必要的安全补丁数量增多(部分原因是 AI 生成的漏洞报告激增),而非 AI 辅助代码本身的质量问题。最终,分析指出批评者是在通过事后关联构建叙事,以证明其预设的反 AI 立场,却忽视了 rsync 的缺陷率依然处于历史正常范围这一现实。
Sakana AI 在东京成立了“递归自我改进(RSI)实验室”,旨在将人工智能范式从暴力规模化转向高效且优雅的自主化。受日本制造业“以少胜多”的卓越传统启发,该实验室致力于构建能够自我重塑和改进的 AI 系统。
基于过去两年的研究积累,包括发表于《自然》杂志的《AI 科学家》(The AI Scientist)以及“LLM-Squared”等突破性成果,该实验室专注于演化优化循环。这些系统超越了静态的人工驱动开发模式,转向在主权且可持续的算力预算内运行的自主、自升级智能体。通过利用演化动力学,Sakana AI 旨在证明前沿智能的发展无需依赖目前由超大规模算力巨头垄断的集群。
RSI 实验室目前正在东京扩充团队,诚招研究人员和工程师共同构建下一代“原生智能体”(Agent-Native)架构。通过将递归自我改进视为一项基础工程挑战,并辅以可验证的安全保障,Sakana AI 致力于将前沿 AI 民主化,使其从“赢家通吃”的资产转变为能够促进全球科学与社会进步、且易于获取的可扩展技术。
罗切斯特大学的研究人员开发出一种开创性的太阳能热海水淡化技术,旨在解决传统方法能耗高和环境破坏的问题。目前的反渗透工艺需要消耗大量能源,并会产生破坏海洋生态系统的有害盐卤。
该研究团队由郭春雷教授领导,利用飞秒激光对金属表面进行加工,制成具有超强吸液特性的“黑金属”面板。这些面板能有效地在表面输送水流,通过吸收太阳能进行蒸馏,并利用“咖啡环效应”将残留的盐分和矿物质自然导向被动收集区。与现有的太阳能蒸馏器不同,这种设计能够防止矿物质结垢,从而使其即使在处理复杂的海水时也能持续运行。
该系统不仅提供了一种可持续的淡水来源,还消除了有毒盐卤废水的排放。它能以固体形式提取盐分和矿物质,包括锂。通过整合钛酸氢盐纳米颗粒,该装置可以有效地从海水中分离出锂,为传统采矿提供了一种更环保的替代方案。这项可扩展的技术有望改善全球水资源获取状况,同时为关键电池材料打造可持续的供应链。