## AI 代码生成与实际用处:脱节
一项最新研究调查了 AI 生成代码的实际应用性,评估依据是 SWE-bench Verified 基准测试。研究人员请三个开源项目的活跃维护者审查 296 个 AI 生成的拉取请求 (PR),这些 PR 都*通过*了自动化的 SWE-bench 评分器。结果显示存在显著差距:大约一半的通过测试的 PR 将不会被人工维护者合并。
这种差异不一定代表 AI 能力的局限性,而是凸显了自动化测试与人工代码审查之间的区别。维护者要求修改是由于代码质量、对仓库标准的遵守或核心功能问题。将分数与人工编写的“黄金补丁”进行标准化对比显示,维护者合并率比 SWE-bench 分数低约 24 个百分点,且改进速度较慢。
该研究强调,基准测试分数可能会高估代理的实用性,如果未纳入人工反馈和迭代改进——这是人工开发者标准的流程。虽然基准测试对于比较模型很有价值,但将其直接转化为实际影响具有挑战性,需要谨慎。研究结果表明,需要更细致的评估方法来考虑人工工作流程的复杂性。
作者最近与一名求职者的经历,以及一封出乎意料地像人类撰写的邮件,凸显了一个令人不安的趋势:人工智能生成的内容迅速涌入互联网。除了这名求职者之外,在HackerNews、Reddit、LinkedIn和GitHub等平台上的观察表明,低质量的、人工智能生成的“垃圾内容”正在激增。
HackerNews现在限制新账户,因为有大量人工智能提交的内容,并明确禁止人工智能编辑的评论,优先考虑人类对话。Reddit受到机器人驱动的虚假宣传困扰,而LinkedIn的信息流则充斥着人工智能生成的内容。甚至GitHub上的开源项目也遭到了无意义的人工智能提交代码的攻击,有时还会被*其他*人工智能进行审查。
这种涌入表明“死亡互联网”——一个由机器生成内容主导的网络——正在比预期更快地到来,使得真正的在线互动越来越稀少。作者哀叹失去了更真实的互联网体验。