不同语言模型学习相似的数字表示。
Different language models learn similar number representations

原始链接: https://arxiv.org/abs/2604.20817

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## Hacker News 讨论:语言模型中相似的数字表示 一篇最近发表在 arXiv 上的论文,探讨了不同语言模型如何表示数字,引发了 Hacker News 的讨论。核心发现是,尽管模型架构、训练数据和优化技术各不相同,但这些模型最终收敛到惊人相似的数字表示上——表现出周期性特征,主要周期为 2、5 和 10。 讨论很快集中在论文的标题上,用户指出标题被过度解读,不能准确反映论文的范围(展示相似性是如何产生的,而不是断言内在规律)。许多评论员将这种收敛与潜在的“通用语法”或数字的“柏拉图式表示”联系起来,暗示着人类和人工智能背后存在着基本的结构。 然而,神经科学研究人员警告不要过度解读这些相似之处,并引用证据表明大型语言模型正在*偏离*人类大脑活动,尤其是在视觉方面。其他人强调了训练数据的作用以及十进制系统在人类语言中的主导地位,作为驱动这些模式的关键因素。 讨论还涉及潜在的应用,例如改进模型压缩以及理解生物系统中“本能”的起源。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com