15倍 vs. ~1.37倍:在SWE-Bench Pro上重新评估GPT-5.3-Codex-Spark
15× vs. ~1.37×: Recalculating GPT-5.3-Codex-Spark on SWE-Bench Pro

原始链接: https://twitter.com/nvanlandschoot/status/2022385829596078100

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

最近对 Hacker News 的一项分析对 OpenAI 的 GPT-5.3-Codex-Spark 模型宣称的大幅速度提升提出了质疑。虽然最初宣传比基线快 15 倍,但使用 OpenAI 自己的 SWE-Bench Pro 数据重新计算表明,在可比的准确性水平下,更现实的速度提升约为 1.37 倍。 讨论强调了人工智能公司叙事与用户体验之间日益增长的脱节。评论员认为,重复的能力声明会造成过高的期望,尤其是对于那些没有直接测试过这些模型的人。 尽管速度提升有所调整,但分析承认 Spark 的优势在于速度和准确性的平衡,通过在保持相似性能的同时仍然显著更快,超出了预期。关键要点是,对于特定用例,独立测试的重要性,而不是仅仅依赖营销声明。
相关文章

原文

We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue using x.com. You can see a list of supported browsers in our Help Center.

Help Center

Terms of Service Privacy Policy Cookie Policy Imprint Ads info © 2026 X Corp.

联系我们 contact @ memedata.com