| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43422413
Hacker News 上的一个帖子讨论了 AI 公司滥用开源基础设施进行数据抓取训练的情况日益严重。Read the Docs 分享了他们的经验,强调了一些公司(例如 Facebook)过度抓取以及缺乏回应的情况,而其他一些公司则努力解决了这个问题。许多用户表达了对漠视善意以及 AI 公司可能不受约束地利用数据和劳动的担忧。一些可能的解决方案被提出,包括机器人检测工具(例如 Fastly 的工具)、IP 封锁、提供工作量证明挑战以及“毒化” AI 数据集。一些人认为这个问题将需要登录墙,这会影响搜索引擎索引,并可能导致网络更加封闭。普遍观点认为,需要加强防御措施来对抗激进的 AI 爬虫,以保护开源资源,并可能保护用户隐私。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
I called it when I wrote it, they are just burning their goodwill to the ground.
I will note that one of the main startups in the space worked with us directly, refunded our costs, and fixed the bug in their crawler. Facebook never replied to our emails, the link in their User Agent led to a 404 -- an engineer at the company saw our post and reached out, giving me the right email -- which I then emailed 3x and never got a reply.
reply