最近对LLM代码生成的研究,基于“metr”文章的数据,揭示了一个令人担忧的趋势:虽然LLM越来越能*通过测试*,但适合实际合并到项目中的代码质量在过去一年中没有提高。
该研究比较了LLM基于通过测试和维护者批准的性能,发现以合并性作为判断标准时,成功率显著下降——50%成功的所需时间从50分钟减少到仅8分钟。 重要的是,合并率分析显示自2025年初以来没有上升趋势,尽管通过测试的能力有所提高。
统计建模(使用Brier分数)证实了这一点,表明预测*恒定*合并率的模型比预测逐步改进的模型更准确。 这表明LLM并没有真正提高生产就绪代码的生成能力,引发了对以通过测试作为主要进展指标的质疑。
## MacBook Neo 与大数据:笔记本电脑基准测试
苹果新款入门级 MacBook Neo,定价 700 美元/800 欧元(512GB 存储,8GB 内存,Apple A18 Pro 芯片),经过了数据库工作负载的测试。目标是:看看它是否符合“在笔记本电脑上进行大数据处理”的理念。
使用 DuckDB 进行基准测试时,MacBook Neo 在最初的“冷启动”测试中表现出色,使用 ClickBench 基准测试完成查询的速度快于可比的云实例,这得益于其本地 NVMe SSD。然而,在持续的“热启动”场景中,拥有更多资源的云实例最终表现优于它。
Neo 还处理了更复杂的 TPC-DS 基准测试,成功地在 100 规模因子下完成所有查询,耗时 15.5 分钟,在 300 规模因子下耗时 79 分钟,但内存限制变得明显。
虽然 DuckDB *可以* 通过内存外处理在 Neo 上处理大量数据,但其较慢的磁盘 I/O(1.5 GB/s)和有限的 8GB 内存使其与高端 MacBook 或专用 Linux/Windows 机器相比,不太适合日常繁重的数据处理。然而,它作为云数据库的客户端是一个不错的选择,并且能够处理偶尔的本地数据处理。
## 海豚模拟器进度报告 - 2026年3月总结
海豚模拟器的最新版本(2603)在多个方面取得了显著进展。最值得注意的是,它**增加了对世嘉、南梦宫和任天堂的Triforce街机系统的模拟支持**——这是18年来支持的首个全新系统!
通过**对MMU模拟的优化**,性能得到了显著提升,使得之前运行困难的游戏,如《星球大战:叛军小队III:反抗打击》,现在可以全速运行。在社区合作和专业的CPU模拟工作下,长期存在的《马里奥冲击力足球》中的物理错误也终于得到解决。
其他主要更新包括**将整个游戏加载到RAM**的功能,以实现从网络存储(NAS)设备更流畅的游戏体验,以及一个**用于调整SDL提示的GUI**,以解决手柄兼容性问题。此外还实施了许多较小的性能补丁和修复,从而提高了整体稳定性和准确性。
本次发布展示了海豚模拟器持续致力于提高模拟准确性、性能,并扩展其兼容性以涵盖新的游戏平台的决心。
## LLM 与可靠软件:Quint 新工作流程
Informal Systems 致力于通过强大的验证来解决信任 AI 生成代码的难题。虽然 LLM 彻底改变了代码创建,但它们*看似*正确却*并非*正确的倾向,需要一种新的方法。他们的解决方案围绕 Quint 可执行规范语言展开,作为人类意图与代码之间至关重要的验证点。
Informal Systems 不依赖 AI 进行设计,而是将其用作翻译器,根据专家定义的协议修改 Quint 规范。此工作流程涉及四个关键步骤:AI 辅助的规范修改、彻底的人工主导的规范验证(使用 Quint 的模拟器和模型检查器)、AI 驱动的代码生成*自*验证后的规范,以及最终的模型化测试,以确保代码与规范一致。
该流程已在复杂的 Malachite 共识引擎(被 Circle 收购)上成功测试,将传统上需要数月的重构时间缩短至约两周。一个关键优势是经过验证的规范充当“调试指南针”,可以快速消除不正确的假设。最终,Quint 实现了从编写代码到验证 AI 输出的转变,优先*定义正确性*,通过可执行规范来实现——这种方法能够建立信心,并确保 LLM 时代的可靠性。