这篇文章介绍了 **CVE-Bench**,这是一个旨在评估人工智能模型修复现实世界安全漏洞能力的新基准。作者使用三种不同的提示条件(完整建议、行为描述(诊断)和文件/函数定位(定位)),对 20 个精选的 Python CVE 漏洞测试了五个前沿模型(三个 OpenAI 模型,两个 Poolside 模型)。
**主要发现:**
* **可靠性:** 没有模型能可靠地修复漏洞。即使是表现最好的模型 GPT-5.5,整体成功率也仅为 50%(在提供完整建议的情况下为 60%)。
* **性能差距:** 虽然 OpenAI 模型在统计学意义上普遍优于 Poolside 的 Laguna 模型,但同一系列模型之间并无显著差异。
* **成本效益:** 在达到同等结果的情况下,代币成本差异可达 4 倍。小型模型能以极低的价格提供与大型模型相当的结果,这使它们对从业者而言更为合理。
* **失败模式:** 模型的失败方式具有可预测的结构性特征:偏离到无关的代码搜索中、触及代币/轮次限制,或提供看似“合理”但无法通过隐藏安全测试的补丁。
* **“定位”挑战:** “定位”条件(即模型在未获得漏洞描述的情况下进行修复)是对真正安全推理能力的有效测试,而这正是所有当前模型所欠缺的技能。