从生产语言模型中提取书籍 (2026)
Extracting books from production language models (2026)

原始链接: https://arxiv.org/abs/2601.02671

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

从生产语言模型中提取书籍 (2026) (arxiv.org) 22点 由 logicprog 4小时前 | 隐藏 | 过去 | 收藏 | 1条评论 visarga 14分钟前 [–] 听起来很糟糕,他们为什么不实现基于n-gram的布隆过滤器,以确保他们不会复制过于接近他们训练的受保护知识产权的表达?几乎任何随机的10个词的n-gram在互联网上都是独一无二的。或者他们可以像从受保护的来源中提取的摘要和问答对一样,在合成数据上进行训练,这样模型就可以获得与原始表达分离的想法。由于它从未见过原始版本,因此无法重复它们。 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com