Cognition 推出了 **FrontierCode**,这是一项旨在评估人工智能模型编写高质量、可投入生产的代码(而非仅仅是功能性代码)能力的新基准。与 SWE-Bench 等侧重于基础正确性的现有基准不同,FrontierCode 衡量的是“可合并性”(mergeability),即人类维护者批准合并请求(Pull Request)时所要求的标准。
FrontierCode 的主要特性包括:
* **专家精选:** 由 20 多位世界级的开源项目维护者参与,每个任务耗时 40 多个小时,旨在为各自的存储库定义真实的行业标准。
* **严谨的方法论:** 该基准采用了一套全新的综合评分技术,包括对抗性测试、单元测试、代码范围约束和基于大语言模型的评分规则,使误报率较现有基准降低了 81%。
* **综合评估:** 从行为表现、回归安全性、代码整洁度以及对代码库规范的遵守程度等方面对模型进行评估。
目前的测试结果显示,即使是最先进的模型在这一高标准下也表现吃力;表现最好的 Claude Opus 4.8 在难度最高的“钻石级”子集上仅获得了 13.4% 的分数。通过超越基础的功能性检查,FrontierCode 为评估 AI 在复杂、专业的软件环境中工作的能力提供了更准确、高保真的信号。