Llemma:数学领域的开放语言模型
Llemma: An Open Language Model for Mathematics

原始链接: https://arxiv.org/abs/2310.10631

介绍Llemma:一个针对数学的开放语言模型。研究团队提出了名为Llemma的语言模型,由Zhangir Azerbayev和Hailey Schoelkopf等人领导。他们使用Pretrained Code LLama在包含从在线来源提取的数学材料的Proof-Pile-2数据集上训练Llemma。经过广泛的经验实验和测试后,他们发现Llemma在解决不同领域的问题方面表现出色,甚至可以在不需要额外微调的情况下执行形式化定理证明。他们的发现可以通过PDF版本和源代码等遗产提供,使读者能够轻松地重复他们的结果。如果你想了解更多关于arXiv上与社区成员合作的项目,请查看arXivLabs,但首先让我们更深入地了解人工智能应用于数学的激动人心世界! 摘要:这项研究介绍了Llemma——一个利用Code LLama进行预训练的数学语言模型。为了创建Llemma,我们在Code LLama的预训练过程中继续处理Proof-Pile-2数据集,结合来自学术网站和在线资源、科学出版物以及数学结构化的数据集的材料。通过应用深度学习技术,我们实现了在问答、问题解决和定理证明方面的令人满意的性能,根据报告,这超过了当前基于开源模型的类似基准。此外,Llemma可以利用其在执行基本级别任务(如语法高亮和符号解析)方面的训练,这可以为现有方法提供独特的解决方案,并生成与数学教学和教育相关的创新见解。我们的工作为机器学习算法如何改变现代对数学教育的看法打开了新的机会,作为未来应用的灵感,在这些应用中,人类输入可以显著减少,但仍然至关重要。 方法论:创建Llemma的方法包括两个主要阶段。首先,为了准备Corpus数据集,各种在线资源被审查,以纳入收集的范围。为科学新闻文章或专门用于传播数学学科信息的网站构成了核心选择标准。其次,这些数字文档在输入算法骨架之前进行了处理。所选的数据集进行了预处理,并使用开源工具分割成较小的批次。

"LLEMMA"是由EleutherAI研究人员开发的,旨在通过名为Longformer的神经架构在计算机科学和机器学习之间建立桥梁。Longformer专门设计用于处理具有长篇解释性答案的教学文本中的提取式问题回答。与之前在问答领域的深度学习尝试不同,LLEMMA成功处理了更长的输入和问题,同时保持了大约85%的高准确性水平。此外,LLEMMA由于其基于BERT设计的变换结构,具有转换推理能力,使其能够在没有明确指令的情况下解决多步计算。总之,LLEMMA的优势在于能够快速识别教学文本中的重要信息,准确回答需要理解多个步骤的解释的问题。然而,尽管其性能与专门的正式方法(如COPRA)具有可比指标,但它在生成有效证明方面仍然落后于像ProverBot9001这样的LLM。尽管如此,LLEMMA为正式方法之外的独特应用提供了机会,例如改进Coq和Lean VScode环境中的自动补全功能,并通过与工具如RAG合作,为以前被认为难以解决的数学方程提供洞察力。未来的计划包括通过量化模型扩展访问权限,并在LLMS(如GPT4)上探索数学直觉,从而实现更深层次的数学概念理解,这对高中学生尤为有益。虽然使用类似于BERT的注意机制可以改进推理能力,但在数学术语方面的混淆导致幻觉错误仍然存在。最终,LLEMMA为机器学习和数学教育领域提供了突破和有趣的潜力。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com