即使GPT-5.2也无法数到五:值得信赖的LLM中的零错误边界。
Even GPT-5.2 Can't Count to Five: Zero-Error Horizons in Trustworthy LLMs

原始链接: https://arxiv.org/abs/2601.15714

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 即使 GPT-5.2 也无法数到五:可靠 LLM 中的零错误范围 (arxiv.org) 8 分,daigoba66 1 小时前 | 隐藏 | 过去 | 收藏 | 4 条评论 帮助 throwuxiytayq 7 分钟前 | 下一个 [–] > 鉴于 GPT-5.2 的出色能力,这令人惊讶。 对于了解 LLM 解析和理解文本的绝对最小值的人来说,这真的令人惊讶吗? 回复 dontlikeyoueith 0 分钟前 | 父评论 | 下一个 [–] 不。 这只会让那些仍然认为他们将用 LLM 创造上帝的人感到惊讶。 回复 charcircuit 19 分钟前 | 上一个 [–] OpenAI 为什么没有微调模型来使用它为这些任务提供的 Python 工具? 回复 ej88 14 分钟前 | 父评论 [–] 他们已经做了,论文中提到他们评估 LLM 时未使用工具。 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系方式 搜索:
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com