Transformer 是贝叶斯网络
Transformers Are Bayesian Networks

原始链接: https://arxiv.org/abs/2603.17063

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都接受并拥护我们的开放、社群、卓越和用户数据隐私等价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一个 Hacker News 的讨论围绕着一篇最近的 arXiv 论文,该论文提出 Transformer(许多大型语言模型 (LLM) 背后的架构)本质上是贝叶斯网络。核心论点在于为什么 LLM 会“幻觉”(生成不正确或无意义的信息)。 用户认为,幻觉并非仅仅是规模问题,而是源于神经网络中概念的*隐性*本质。虽然这些网络具有灵活性,但缺乏离散、明确的知识。 一种建议是混合架构,结合神经网络的适应性和知识库的结构化概念。 讨论还涉及计算的本质上离散性,以及与朴素贝叶斯及其特征独立性假设的潜在联系。 进一步分享的链接探讨了相关概念,如 Petz 回复图(贝叶斯定理的量子模拟)以及 Transformer 作为全息关联记忆的想法,但由于量子比特的限制,实用的量子 LLM 仍然遥远。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com