Hacker News 讨论了一篇 Engadget 文章,文章讲述了维基百科正在与 AI 机器人爬虫作斗争。评论者们感到困惑,为什么爬虫会以网页界面为目标,而更好的格式的数据库转储却唾手可得。提出了几种理论,包括:开发者不知道有转储文件、缺乏 XML 解析技能、爬虫实现不佳、懒惰、恶意行为(DDoS 攻击),或者只是通用的爬虫,没有考虑到可用的数据转储。一些人认为这些爬虫反映出部署它们的公司的漠不关心或缺乏道德标准。另一些人指出,开放访问的网络广泛受到影响。提到的解决方案包括付费验证码服务、API 和托管可下载的数据库。一位用户强调,转储和 API 无法捕获页面间的转接(Transclusion)。另一位发帖者指出,他们发现其个人家庭服务器上的流量增加了,这些机器人忽略了 robots.txt。