通用推理模型 (通过 ARC1 53.8%,通过 ARC 2 16.0%)
Universal Reasoning Model (53.8% pass 1 ARC1 and 16.0% ARC 2)

原始链接: https://arxiv.org/abs/2512.14693

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一个新的“通用推理模型”因其在人类推理模型(HRM)和Transformer推理模型(TRM)上的改进而受到Hacker News的关注。该模型在ARC1基准测试中达到53.8%,在ARC2基准测试中达到16.0%,表明推理能力有所增强。 讨论的中心在于其架构,它在单次模型运行中融合了循环和推理缩放,而不是像“思考”模型那样依赖多次完整传递。这使得模型有可能在减少对纯粹数据知识的依赖的同时获得更多的“智慧”,类似于混合视频游戏帧而不是完全渲染。 评论者们争论它本质上是否是基于LLM切片构建的一种新型RNN,或者是一个具有共享层权重的Transformer。有些人认为这只是增量式的工程改进,而另一些人则惊讶于它没有获得更广泛的关注,特别是关于与下一个token预测的潜在结合。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com