最近一篇关于 DeepSeek V4 Pro 在精度上超越 GPT-5.5 Pro 的 Hacker News 文章引发了关于 AI 生成内容及大语言模型基准测试有效性的激烈辩论。
批评者认为该文章是“AI 生成的标题党”,并指出其仅凭四项实验的方法论非常薄弱、构建粗糙,缺乏科学比较所需的严谨性。许多用户质疑该测试使用 AI 模型(Grok)作为裁判的做法,以及缺乏多轮测试以排除模型非确定性行为的影响。
相反,支持者则强调,DeepSeek V4 Pro 及类似模型代表了向高性价比、高性能替代方案的必要转型,挑战了西方“前沿”模型的地位。用户指出,尽管 GPT-5.5 可能在“宏观”推理或处理复杂、模糊的任务上仍具优势,但 DeepSeek 极高的成本效益、出色的 Token 缓存能力,以及在配合结构化代码框架使用时的有效性,使其成为实际开发中的“游戏规则改变者”。
归根结底,这场讨论突显了日益加剧的分歧:一部分人认为 AI 基准测试已沦为充斥着垃圾信息的无效劳动,而另一部分人则将廉价、开源权重模型的崛起视为对少数高价闭源公司垄断地位的必要冲击。