评论
(comments)
原始链接: https://news.ycombinator.com/item?id=37918327
"LLEMMA"是由EleutherAI研究人员开发的,旨在通过名为Longformer的神经架构在计算机科学和机器学习之间建立桥梁。Longformer专门设计用于处理具有长篇解释性答案的教学文本中的提取式问题回答。与之前在问答领域的深度学习尝试不同,LLEMMA成功处理了更长的输入和问题,同时保持了大约85%的高准确性水平。此外,LLEMMA由于其基于BERT设计的变换结构,具有转换推理能力,使其能够在没有明确指令的情况下解决多步计算。总之,LLEMMA的优势在于能够快速识别教学文本中的重要信息,准确回答需要理解多个步骤的解释的问题。然而,尽管其性能与专门的正式方法(如COPRA)具有可比指标,但它在生成有效证明方面仍然落后于像ProverBot9001这样的LLM。尽管如此,LLEMMA为正式方法之外的独特应用提供了机会,例如改进Coq和Lean VScode环境中的自动补全功能,并通过与工具如RAG合作,为以前被认为难以解决的数学方程提供洞察力。未来的计划包括通过量化模型扩展访问权限,并在LLMS(如GPT4)上探索数学直觉,从而实现更深层次的数学概念理解,这对高中学生尤为有益。虽然使用类似于BERT的注意机制可以改进推理能力,但在数学术语方面的混淆导致幻觉错误仍然存在。最终,LLEMMA为机器学习和数学教育领域提供了突破和有趣的潜力。
EDIT: To be clear, that's 10-15% of the total theorems in a test set, not a relative 10-15% improvement. Given that solve rates for tools are in the 10-30% range, that's much more than a relative 10-15% improvement.
reply