15倍 vs. ~1.37倍：在SWE-Bench Pro上重新评估GPT-5.3-Codex-Spark

15倍 vs. ~1.37倍：在SWE-Bench Pro上重新评估GPT-5.3-Codex-Spark
15× vs. ~1.37×: Recalculating GPT-5.3-Codex-Spark on SWE-Bench Pro

原始链接: https://twitter.com/nvanlandschoot/status/2022385829596078100

最近对 Hacker News 的一项分析对 OpenAI 的 GPT-5.3-Codex-Spark 模型宣称的大幅速度提升提出了质疑。虽然最初宣传比基线快 15 倍，但使用 OpenAI 自己的 SWE-Bench Pro 数据重新计算表明，在可比的准确性水平下，更现实的速度提升约为 1.37 倍。讨论强调了人工智能公司叙事与用户体验之间日益增长的脱节。评论员认为，重复的能力声明会造成过高的期望，尤其是对于那些没有直接测试过这些模型的人。尽管速度提升有所调整，但分析承认 Spark 的优势在于速度和准确性的平衡，通过在保持相似性能的同时仍然显著更快，超出了预期。关键要点是，对于特定用例，独立测试的重要性，而不是仅仅依赖营销声明。

We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue using x.com. You can see a list of supported browsers in our Help Center.

Help Center

15倍 vs. ~1.37倍：在SWE-Bench Pro上重新评估GPT-5.3-Codex-Spark 15× vs. ~1.37×: Recalculating GPT-5.3-Codex-Spark on SWE-Bench Pro

15倍 vs. ~1.37倍：在SWE-Bench Pro上重新评估GPT-5.3-Codex-Spark
15× vs. ~1.37×: Recalculating GPT-5.3-Codex-Spark on SWE-Bench Pro