为什么Transformer不能学习乘法?
Why can't transformers learn multiplication?

原始链接: https://arxiv.org/abs/2510.00184

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## 为什么Transformer难以处理乘法:总结 一项最新研究探讨了Transformer在语言处理方面取得成功,但在学习基本乘法运算时却遇到困难的原因。核心问题并非计算能力不足——计算机本身在这方面已经非常出色——而是任务与Transformer优势之间的不匹配。Transformer擅长处理顺序化的token,而乘法运算需要不同类型的推理。 研究发现,Transformer在直接从输入-输出示例中学习乘法时表现不佳。然而,当通过“思维链”方法引导,模仿长乘法的步骤时,它们*可以*学习。这表明困难在于发现任务的最佳中间步骤,而非计算本身。 讨论强调,大型语言模型擅长*描述*过程,但在大规模上进行精确、无差错的执行方面却存在困难。一些人提出了解决方案,例如为模型提供符号操作工具或允许它们修改自身的内部状态,而另一些人则质疑期望语言模型掌握算术是否是对技术的误用。最终,争论的中心在于当前的人工智能方法是否足以实现真正的通用智能,或者是否需要根本不同的架构。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com