大型语言模型推理失败
Large Language Model Reasoning Failures

原始链接: https://arxiv.org/abs/2602.06176

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都拥抱并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一篇最近发表的研究论文(arxiv.org)强调了大型语言模型(LLM)在推理方面存在显著缺陷,引发了Hacker News上的讨论。核心论点,与评论者相呼应,是人们常常*高估* LLM 的能力,并将人类特征赋予这些系统。 该论文表明,LLM 在需要基本推理技能的任务上遇到困难——即使是幼儿也能做到的事情,比如准确计数——以及复杂的道德推理领域。这表明它们离通用人工智能(AGI)还很遥远。 这些失败源于 LLM 作为下一个词预测器的基本性质;它们擅长*表现出* 智能,但缺乏真正的理解。一个 GitHub 仓库(提供链接)汇集了这些失败的例子,提供了一个资源来降低期望,并使对 LLM 能力的认知保持客观。 基本上,现在还不要指望贾维斯。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com