为什么SWE-bench Verified不再衡量前沿编码能力

为什么SWE-bench Verified不再衡量前沿编码能力
Why SWE-bench Verified no longer measures frontier coding capabilities

原始链接: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

启用 JavaScript 和 Cookie 以继续。

## SWE-bench 验证基准测试存在缺陷最近对 SWE-bench 验证编码基准测试的审计发现其测试案例存在重大问题。研究人员发现，**在抽样的 27.6% 的问题中，有 59.4% 的问题测试存在缺陷**，接受了错误的解决方案或拒绝了正确的解决方案。这使得该基准测试作为衡量真实编码能力的指标的有效性受到质疑。核心问题是**污染**：在基准测试数据上训练的模型表现更好，并非因为它们本身是更好的编码员，而是因为它们*之前见过这些问题*。这使得在基准测试上的改进对于评估实际软件开发技能不可靠。一些评论员指出，这并非 SWE-bench 独有；基准测试通常存在缺陷、过时或容易被操纵。一些模型，如 Opus 4.7 和 Mythos，声称通过率很高，尽管 OpenAI 的研究结果表明存在差异，这表明评估方法存在差异。讨论指向了对**新的、未受污染的基准测试**的需求，以及转向基于个别用例评估模型，而不是依赖于公开分数。OpenAI 现在建议使用 SWE-bench Pro。

为什么SWE-bench Verified不再衡量前沿编码能力 Why SWE-bench Verified no longer measures frontier coding capabilities

为什么SWE-bench Verified不再衡量前沿编码能力
Why SWE-bench Verified no longer measures frontier coding capabilities