为什么SWE-bench Verified不再衡量前沿编码能力
Why SWE-bench Verified no longer measures frontier coding capabilities

原始链接: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

启用 JavaScript 和 Cookie 以继续。

## SWE-bench 验证基准测试存在缺陷 最近对 SWE-bench 验证编码基准测试的审计发现其测试案例存在重大问题。研究人员发现,**在抽样的 27.6% 的问题中,有 59.4% 的问题测试存在缺陷**,接受了错误的解决方案或拒绝了正确的解决方案。这使得该基准测试作为衡量真实编码能力的指标的有效性受到质疑。 核心问题是**污染**:在基准测试数据上训练的模型表现更好,并非因为它们本身是更好的编码员,而是因为它们*之前见过这些问题*。这使得在基准测试上的改进对于评估实际软件开发技能不可靠。 一些评论员指出,这并非 SWE-bench 独有;基准测试通常存在缺陷、过时或容易被操纵。一些模型,如 Opus 4.7 和 Mythos,声称通过率很高,尽管 OpenAI 的研究结果表明存在差异,这表明评估方法存在差异。讨论指向了对**新的、未受污染的基准测试**的需求,以及转向基于个别用例评估模型,而不是依赖于公开分数。OpenAI 现在建议使用 SWE-bench Pro。
相关文章

原文
联系我们 contact @ memedata.com