SourceHut 正在更新其服务条款,以明确其对数据抓取的立场,主要原因是大型语言模型爬虫数量的增加带来了越来越大的负担。新的条款将明确允许出于搜索索引、开放获取研究和存档目的的抓取,前提是爬虫遵守 robots.txt 协议,使用清晰的 User-Agent,并且不会对服务性能造成负面影响。未经明确许可,出于揽客、盈利、训练机器学习模型或其他未经批准的目的进行抓取是被禁止的。 SourceHut 认为平台上的数据是为开源用户和贡献者准备的。他们不赞成为了大型语言模型或其他不直接惠及开源社区的用途进行批量数据收集。他们拒绝公司有权获取这些数据的观点,并且不会提供特殊访问权限,即使是付费也不例外。SourceHut 优先考虑用户的利益,并将自己视为其数据管理者,致力于确保数据被用于改进开源软件。他们的资金来源是订阅,而不是数据销售。