第一稿
First Proof

原始链接: https://arxiv.org/abs/2602.05192

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都接受并拥护我们的开放、社群、卓越和用户数据隐私等价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一项名为“首次证明”(1stproof.org)的新倡议正在挑战大型语言模型 (LLM) 解决数学问题。该项目提供已知解的题目,暂时加密,以测试 LLM 是否能够独立*发现*证明——而不仅仅是回忆信息。 Hacker News 讨论中一个主要担忧是防止人为协助被冒充为 LLM 的工作。具体来说,用户质疑像 Anthropic 或 OpenAI 这样的公司是否会雇佣问题作者来生成证明,并声称 LLM 是作者。 截止日期很短(2 月 13 日)可能对 LLM 有利,因为它限制了人类数学家生成解决方案的时间。 有人预计,无论结果如何,都会对结果表示怀疑和“改变评判标准”。该项目的目标是评估 LLM 的真正解决问题的能力,而不仅仅是信息检索。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com