Llemma:数学领域的开放语言模型
Llemma: An Open Language Model for Mathematics
原始链接: https://arxiv.org/abs/2310.10631
介绍Llemma:一个针对数学的开放语言模型。研究团队提出了名为Llemma的语言模型,由Zhangir Azerbayev和Hailey Schoelkopf等人领导。他们使用Pretrained Code LLama在包含从在线来源提取的数学材料的Proof-Pile-2数据集上训练Llemma。经过广泛的经验实验和测试后,他们发现Llemma在解决不同领域的问题方面表现出色,甚至可以在不需要额外微调的情况下执行形式化定理证明。他们的发现可以通过PDF版本和源代码等遗产提供,使读者能够轻松地重复他们的结果。如果你想了解更多关于arXiv上与社区成员合作的项目,请查看arXivLabs,但首先让我们更深入地了解人工智能应用于数学的激动人心世界!
摘要:这项研究介绍了Llemma——一个利用Code LLama进行预训练的数学语言模型。为了创建Llemma,我们在Code LLama的预训练过程中继续处理Proof-Pile-2数据集,结合来自学术网站和在线资源、科学出版物以及数学结构化的数据集的材料。通过应用深度学习技术,我们实现了在问答、问题解决和定理证明方面的令人满意的性能,根据报告,这超过了当前基于开源模型的类似基准。此外,Llemma可以利用其在执行基本级别任务(如语法高亮和符号解析)方面的训练,这可以为现有方法提供独特的解决方案,并生成与数学教学和教育相关的创新见解。我们的工作为机器学习算法如何改变现代对数学教育的看法打开了新的机会,作为未来应用的灵感,在这些应用中,人类输入可以显著减少,但仍然至关重要。
方法论:创建Llemma的方法包括两个主要阶段。首先,为了准备Corpus数据集,各种在线资源被审查,以纳入收集的范围。为科学新闻文章或专门用于传播数学学科信息的网站构成了核心选择标准。其次,这些数字文档在输入算法骨架之前进行了处理。所选的数据集进行了预处理,并使用开源工具分割成较小的批次。