梯子:通过递归问题分解来改进大型语言模型
Ladder: Self-improving LLMs through recursive problem decomposition

原始链接: https://arxiv.org/abs/2503.00735

LADDER是一个新颖的框架,它使大型语言模型 (LLM) 能够通过自主学习来自主提升其解决问题的能力。它通过递归地生成和解决越来越简单的复杂问题的版本来实现这一点,无需精心策划的数据集或人工反馈。 该框架侧重于“通过自主难度驱动的示例递归进行学习”。在数学积分方面得到了证明,LADDER显著提升了LLM的性能。例如,它将Llama 3.2 3B在本科水平问题上的准确率从1%提高到82%。此外,它使Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分竞赛资格赛中取得了73%的成绩。 该论文还介绍了TTRL(测试时强化学习),其中强化学习应用于推理过程中测试问题的变体。使用TTRL,Qwen2.5 7B Deepseek-R1 Distilled在麻省理工学院积分竞赛资格赛中获得了90%的最高分,超过了OpenAI o1的成绩。这表明,自主战略学习能够在LLM中实现显著的能力提升,而无需架构扩展或人工监督。

Hacker News 上的一个帖子讨论了“Ladder”——一个使用递归问题分解的自我改进型大型语言模型系统,该系统在数学积分方面取得了显著的准确性提升。用户们表达了对近期机器学习突破的兴奋之情,包括将神经网络与因果推理相结合,这暗示着可能从简单的规模扩大转向创新方法。 人们也对测试时强化学习可能通过在近乎相同的测试用例上进行训练而“作弊”表示担忧。关于大型语言模型是否接近人工通用智能(AGI)的讨论持续不断,人们对它们的解决问题能力持有不同的观点。一些人强调大型语言模型的进步已经超过了电池技术的进步。 评论者还谈到了强化学习的作用、课程学习以及训练和推理界限模糊的问题。一些人讨论了上下文压缩以及依赖大型上下文带来的局限性。讨论还涉及人工智能安全和治理,特别是像 Grok 这样的模型的偏差问题。
相关文章
  • (评论) 2025-03-08
  • Llemma:数学领域的开放语言模型 2023-10-19
  • 评论 2023-10-19
  • QwQ-32B:拥抱强化学习的力量 2025-03-07
  • (评论) 2023-11-17

  • 原文

    View a PDF of the paper titled LADDER: Self-Improving LLMs Through Recursive Problem Decomposition, by Toby Simonds and 1 other authors

    View PDF HTML (experimental)
    Abstract:We introduce LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), a framework which enables Large Language Models to autonomously improve their problem-solving capabilities through self-guided learning by recursively generating and solving progressively simpler variants of complex problems. Unlike prior approaches that require curated datasets or human feedback, LADDER leverages a model's own capabilities to generate easier question variants. We demonstrate LADDER's effectiveness in the subject of mathematical integration, improving Llama 3.2 3B's accuracy from 1% to 82% on undergraduate-level problems and enabling Qwen2.5 7B Deepseek-R1 Distilled to achieve 73% on the MIT Integration Bee qualifying examination. We also introduce TTRL (Test-Time Reinforcement Learning), where we perform reinforcement learning on variants of test problems at inference time. TTRL enables Qwen2.5 7B Deepseek-R1 Distilled to achieve a state-of-the-art score of 90% on the MIT Integration Bee qualifying examination, surpassing OpenAI o1's performance. These results show how self-directed strategic learning can achieve significant capability improvements without relying on architectural scaling or human supervision.
    From: Akira Yoshiyama [view email]
    [v1] Sun, 2 Mar 2025 05:16:43 UTC (286 KB)
    [v2] Tue, 4 Mar 2025 14:30:32 UTC (203 KB)
    [v3] Wed, 5 Mar 2025 11:50:24 UTC (203 KB)
    联系我们 contact @ memedata.com