变形器知道的比他们能说的更多:学习考拉兹序列
Transformers know more than they can tell: Learning the Collatz sequence

原始链接: https://www.arxiv.org/pdf/2511.10811

本文题为“Transformers 知道的比他们能说的更多——学习考拉兹序列”,作者为 François Charton 和 Ashvni Narayanan,探讨了大型语言模型(LLM)——特别是 Transformers——在隐式学习数学概念方面的惊人能力,即使它们难以明确表达这些概念。 该研究重点关注考拉兹猜想,一个著名的数学未解难题。作者证明,当直接要求 Transformers 解决考拉兹问题时,它们常常失败,但当通过间接方式探究时,它们*确实*表现出对潜在模式的了解。这表明模型内部代表了超越其易于访问输出的数学理解。 本质上,这项研究强调了 LLM *知道* 的内容与它们能*告诉* 我们的内容之间的脱节,暗示了比先前假设的更丰富的内部知识表示。该作品采用知识共享署名 4.0 许可协议。

## 黑客新闻讨论:Transformer 与考拉兹序列 一篇最近发表的论文,探讨了 Transformer 如何学习考拉兹序列,引发了黑客新闻上的讨论。该研究调查了“机制可解释性”——理解这些模型*如何*得出解决方案,而不仅仅是*它们*是否能得出解决方案。 核心发现是,Transformer 擅长模式识别,但在考拉兹函数的算法“控制结构”(循环)方面表现挣扎,尤其是在进制转换方面。它们并非真正“理解”数学,而是依赖于识别二进制表示中的模式。有趣的是,性能很大程度上取决于输入所使用的数字基数。 一个关键的争论围绕着论文标题“Transformer 知道的比他们能说的更多”,以及它与内容之间的联系。一些人认为标题具有误导性,而另一些人则认为它引用了关于模型知识的相关研究。讨论还涉及学术出版实践——在论文长度限制下平衡彻底性,以及增量研究的价值与追求突破性单篇论文的价值。最终,这场对话突出了当前 Transformer 架构的局限性以及在数学推理方面改进的潜在途径。
相关文章

原文
%PDF-1.7 % 1 0 obj > endobj 2 0 obj > endobj 3 0 obj > stream <alt><li xml:lang="x-default">Transformers know more than they can tell -- Learning the Collatz sequence</li></alt>
  • François Charton
  • Ashvni Narayanan
  • http://creativecommons.org/licenses/by/4.0/
  • cs.LG
  • endstream endobj 4 0 obj > endobj 5 0 obj > endobj 6 0 obj > endobj 7 0 obj > endobj 8 0 obj > endobj 9 0 obj > endobj 10 0 obj > endobj 11 0 obj > endobj 12 0 obj > endobj 13 0 obj > endobj 14 0 obj > endobj 15 0 obj > endobj 16 0 obj > endobj 17 0 obj > endobj 18 0 obj > endobj 19 0 obj > endobj 20 0 obj > endobj 21 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 161.655 234.456 234.95 247.357 ] /Subtype /Link /Type /Annot >> endobj 22 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 241.76 234.456 265.571 247.357 ] /Subtype /Link /Type /Annot >> endobj 23 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 110.399 220.907 181.606 233.808 ] /Subtype /Link /Type /Annot >> endobj 24 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 187.614 220.907 211.425 233.808 ] /Subtype /Link /Type /Annot >> endobj 25 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 217.433 220.907 290.004 233.808 ] /Subtype /Link /Type /Annot >> endobj 26 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 296.012 220.907 319.823 233.808 ] /Subtype /Link /Type /Annot >> endobj 27 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 325.831 220.907 413.902 233.808 ] /Subtype /Link /Type /Annot >> endobj 28 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 419.91 220.907 443.721 233.808 ] /Subtype /Link /Type /Annot >> endobj 29 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 374.74 207.357 422.659 220.259 ] /Subtype /Link /Type /Annot >> endobj 30 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 428.099 207.357 451.91 220.259 ] /Subtype /Link /Type /Annot >> endobj 31 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 457.35 207.357 519.966 220.259 ] /Subtype /Link /Type /Annot >> endobj 32 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 89.004 193.808 112.814 206.71 ] /Subtype /Link /Type /Annot >> endobj 33 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 118.255 193.808 176.932 206.71 ] /Subtype /Link /Type /Annot >> endobj 34 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 182.372 193.808 206.183 206.71 ] /Subtype /Link /Type /Annot >> endobj 35 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 285.543 180.259 334.878 193.161 ] /Subtype /Link /Type /Annot >> endobj 36 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 340.041 180.259 363.852 193.161 ] /Subtype /Link /Type /Annot >> endobj 37 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 470.934 180.259 519.966 193.161 ] /Subtype /Link /Type /Annot >> endobj 38 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 89.004 166.71 112.814 179.611 ] /Subtype /Link /Type /Annot >> endobj 39 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 283.688 153.161 353.823 166.062 ] /Subtype /Link /Type /Annot >> endobj 40 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 358.675 153.161 382.486 166.062 ] /Subtype /Link /Type /Annot >> endobj 41 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 387.337 153.161 441.806 166.062 ] /Subtype /Link /Type /Annot >> endobj 42 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 446.657 153.161 470.468 166.062 ] /Subtype /Link /Type /Annot >> endobj 43 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 471.29 139.611 519.966 152.513 ] /Subtype /Link /Type /Annot >> endobj 44 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 89.004 126.062 112.814 138.964 ] /Subtype /Link /Type /Annot >> endobj 45 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 117.659 126.062 171.385 138.964 ] /Subtype /Link /Type /Annot >> endobj 46 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 176.23 126.062 200.04 138.964 ] /Subtype /Link /Type /Annot >> endobj 47 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 473.239 126.062 519.966 138.964 ] /Subtype /Link /Type /Annot >> endobj 48 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 89.004 112.513 112.814 125.415 ] /Subtype /Link /Type /Annot >> endobj 49 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 385.21 98.964 487.085 111.866 ] /Subtype /Link /Type /Annot >> endobj 50 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 491.913 98.964 515.723 111.866 ] /Subtype /Link /Type /Annot >> endobj 51 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 337.287 85.415 407.541 98.316 ] /Subtype /Link /Type /Annot >> endobj 52 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 411.785 85.415 435.595 98.316 ] /Subtype /Link /Type /Annot >> endobj 53 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 439.839 85.415 491.911 98.316 ] /Subtype /Link /Type /Annot >> endobj 54 0 obj > /Border [ 0 0 1 ] /C [ 1 1 1 ] /H /I /Rect [ 496.155 85.415 519.966 98.316 ] /Subtype /Link /Type /Annot >> endobj 55 0 obj > /BS > /NM (fitz-L0) /Rect [ 12 219.90998 32 572.08999 ] /Subtype /Link >> endobj 56 0 obj > stream x+
    联系我们 contact @ memedata.com