MemeData

许多通过SWE-bench测试的PR不会被合并。 Many SWE-bench-Passing PRs would not be merged 21 天前

## AI 代码生成与实际用处：脱节一项最新研究调查了 AI 生成代码的实际应用性，评估依据是 SWE-bench Verified 基准测试。研究人员请三个开源项目的活跃维护者审查 296 个 AI 生成的拉取请求 (PR)，这些 PR 都*通过*了自动化的 SWE-bench 评分器。结果显示存在显著差距：大约一半的通过测试的 PR 将不会被人工维护者合并。这种差异不一定代表 AI 能力的局限性，而是凸显了自动化测试与人工代码审查之间的区别。维护者要求修改是由于代码质量、对仓库标准的遵守或核心功能问题。将分数与人工编写的“黄金补丁”进行标准化对比显示，维护者合并率比 SWE-bench 分数低约 24 个百分点，且改进速度较慢。该研究强调，基准测试分数可能会高估代理的实用性，如果未纳入人工反馈和迭代改进——这是人工开发者标准的流程。虽然基准测试对于比较模型很有价值，但将其直接转化为实际影响具有挑战性，需要谨慎。研究结果表明，需要更细致的评估方法来考虑人工工作流程的复杂性。

## Hacker News 讨论总结：AI 生成代码与合并性 Hacker News 上最近的一篇帖子讨论了一项研究，该研究表明许多通过 SWE-bench 测试的 AI 生成代码提交不会被人工审查员通过合并请求接受。核心问题不在于功能——代码*可以工作*——而是**质量、可维护性和对现有代码库标准的遵守。** 用户分享了经验，即 AI 生成的代码虽然在技术上是正确的，但过于复杂、冗长，并采用了人类不会选择的非常规模式。许多评论员指出，LLM 擅长*让事情起作用*，但难以把握“品味”或理解更广泛的架构问题。讨论强调，**当前的 SWE-bench 等基准测试不足以**衡量实际代码质量，它们优先考虑通过测试。更好的评估需要超越测试成功的指标，例如代码复杂度、对风格指南的遵守以及与现有代码的比较。许多人同意，**有效的 AI 辅助需要仔细的提示、上下文提供和人工监督。** 理想的情况不是取代开发人员，而是通过需要熟练指导才能生成可维护、高质量代码的工具来增强他们。也有人担心未来可能会充斥着难以理解的代码，而这些代码只能由高级 AI 代理维护。

我被一个人工智能机器人面试了。 I was interviewed by an AI bot for a job 21 天前

人工智能正越来越多地被用于进行初步的职位面试，像CodeSignal和Humanly这样的公司正在使用人工智能化身通过视频通话来评估候选人。支持者认为这扩大了面试机会并减少了偏见，使更多的申请者能够被考虑。然而，由于真正无偏见的人工智能仍然难以实现——这些系统是基于反映现有社会偏见的数据进行训练的，因此担忧正在增加。最近的一项实验表明，虽然一些人工智能面试平台感觉比其他平台更自然，但体验始终缺乏人类互动的细微差别和联系。作者亲自测试了三个平台，用于各种职位，并在整个过程中都希望与真人交流。这引发了关于招聘未来的问题，以及人工智能是否真的能够有效地和公平地评估候选人。

伊朗警告称，随着战争扩大，美国科技公司可能成为目标。 Iran warns U.S. tech firms could become targets as war expands 21 天前

伊朗、以色列和美国之间的紧张局势现已扩展到网络和基础设施战。在近期袭击波斯湾AWS数据中心的无人机袭击事件后，伊朗国家媒体明确点名谷歌、微软、帕兰蒂尔、英伟达和甲骨文等美国大型科技公司，称它们可能成为目标，理由是它们与以色列的联系以及军事应用。这一警告由与伊斯兰革命卫队有关的媒体发布，标志着冲突范围的扩大，从传统的军事目标扩展到经济基础设施。伊朗以以色列袭击其自身经济目标（如Sepah银行）为由，为这种扩展辩护。这一威胁凸显了该地区关键技术基础设施的脆弱性，特别是云服务和数据中心，并引发了对现代经济潜在中断的担忧。到目前为止，上述美国公司尚未公开对事态发展发表评论。

个人电脑，由 Perplexity 提供 Personal Computer by Perplexity 21 天前

启用 JavaScript 和 Cookie 以继续。

## Perplexity 发布“个人电脑” – 一款 AI 驱动的智能体 Perplexity 宣布推出“个人电脑”，该系统基于一台专用的 Mac Mini 和他们的 AI 服务构建，旨在自动化任务并提高生产力。本质上，它是一个经过完善和管理的 OpenClaw 版本，专为不熟悉技术设置的用户设计。该公司声称能显著节省成本——内部团队在四周内完成了相当于 160 万美元和 3.25 年的工作量，但这些数据受到了质疑。讨论的重点在于，像起草电子邮件和制作演示文稿这样的任务是否真正代表了有价值的“工作”，以及对 AI 的依赖是否会引入新的协调开销。许多评论者强调了对安全和信任的担忧，提到了 LLM 不可预测行为的潜在风险。另一些人则将其与过去的科技趋势相提并论，并质疑又一个 AI 包装服务的长期可行性。此次发布引发了关于工作本质、AI 替代任务（并可能创造“无用工作”）的潜力，以及 AI 发展的整体方向的争论。最终，许多人质疑这款产品到底解决了什么问题。

我很高兴Anthropic的竞争正在发生。 I'm glad the Anthropic fight is happening now 21 天前

## Anthropic、美国国防部和人工智能控制的未来美国国防部试图迫使Anthropic移除其人工智能模型中防止用于大规模监控和自主武器的保障措施，凸显了一个关键的未来挑战：谁来控制日益强大的人工智能？Anthropic的拒绝引发了对其公司进行有效解体的威胁，引发了人们对政府过度干预以及人工智能可能被武器化以对抗民主原则的担忧。作者认为，虽然政府对人工智能有合法的需求，但赋予一家私营公司对关键技术的“关闭开关”是不可接受的。然而，仅仅拒绝合作不是问题所在——仅仅因为坚持其价值观而威胁摧毁一家公司，会造成一个危险的先例。随着人工智能融入所有领域，包括国防，政府可能会试图胁迫*所有*人工智能提供商，从而可能扼杀创新，并将发展导向监管较少的实体。核心问题在于，人工智能本质上有利于专制控制，能够实现前所未有的监控能力。虽然监管是不可避免的，但作者担心监管框架可能会被滥用以压制异议和控制人口。解决方案不仅仅是企业抵制，而是建立明确的法律和社会规范，禁止滥用人工智能——类似于二战后反对核战争的规范。这需要持续的辩论，以及随着人工智能的发展而进行调整的意愿，认识到在人工智能驱动的世界中维护自由需要积极而深思熟虑的行动。

死去的互联网不再是理论。 The dead Internet is not a theory anymore 21 天前

作者最近与一名求职者的经历，以及一封出乎意料地像人类撰写的邮件，凸显了一个令人不安的趋势：人工智能生成的内容迅速涌入互联网。除了这名求职者之外，在HackerNews、Reddit、LinkedIn和GitHub等平台上的观察表明，低质量的、人工智能生成的“垃圾内容”正在激增。 HackerNews现在限制新账户，因为有大量人工智能提交的内容，并明确禁止人工智能编辑的评论，优先考虑人类对话。Reddit受到机器人驱动的虚假宣传困扰，而LinkedIn的信息流则充斥着人工智能生成的内容。甚至GitHub上的开源项目也遭到了无意义的人工智能提交代码的攻击，有时还会被*其他*人工智能进行审查。这种涌入表明“死亡互联网”——一个由机器生成内容主导的网络——正在比预期更快地到来，使得真正的在线互动越来越稀少。作者哀叹失去了更真实的互联网体验。

## Hacker News 上关于“死亡互联网”的讨论一篇在 adriankrebs.ch 上的文章引发了 Hacker News 的讨论，探讨了人们日益增长的担忧：互联网正变得越来越多地充斥着人工智能生成的内容和机器人，导致真实的互动减少——这种现象被称为“死亡互联网”理论。用户们辩论了潜在的解决方案，从强制身份验证（可能通过上传身份证件）和付费访问在线平台，到更复杂的密码学方法来验证用户属性而不泄露个人信息。人们对这些方案的可行性提出了担忧，许多人指出机器人很容易使用被盗凭据绕过身份检查。一些评论者表达了对小型、邀请制社区的渴望，将其视为真实对话的避风港，而另一些人则建议回归线下互动。一个反复出现的主题是，渴望一个更简单、更少商业化的互联网，让人联想到它早期的样子。有些人甚至开玩笑说要采取极端措施，比如完全重置网络，或者拥抱离线生活，例如学习锻造。最终，这场讨论凸显了人们对当前互联网状态日益增长的幻灭感，以及寻找恢复真实人际连接空间的方法。

来自黑暗的黑暗 The Darkness from the Darkness 21 天前

启用 JavaScript 和 Cookie 以继续。

黑客新闻新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交登录来自黑暗的黑暗 (thebaffler.com) 6 分，来自 lermontov 1 天前 | 隐藏 | 过去 | 收藏 | 讨论帮助指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系搜索：

自主软件翻译的机制 The mechanics of autonomous software translation 21 天前

## AI辅助软件翻译：现状与未来展望 (2026) 2026年初，AI驱动的软件翻译备受关注，例如Cursor的浏览器翻译和Anthropic的C编译器演示。然而，这些初步尝试未能达到预期，揭示了当前的LLM更像是“神经搜索引擎”，提出需要人工设计的“翻译框架”进行验证的翻译结果——它们无法自主翻译。核心问题不在于模型能力，而是这些框架的不成熟和高昂的计算成本。尽管如此，预计2026年全年会有进展，可能在年底推出可用的翻译产品。翻译的经济可行性取决于降低每次迭代的成本和提高框架效率。未来的发展可能包括模型将更多地控制翻译过程，包括测试用例生成。虽然目前关注的是“可观察等价性”（功能正确性），但在验证性能和安全性方面仍然存在挑战。最终，翻译的价值在于诸如现代化遗留代码（例如，COBOL到Java）、实现平台独立性，甚至重建闭源软件等场景。除了翻译之外，优化作为自然而然的下一步，将建立在现有的测试基础设施之上。一个普遍存在的翻译未来可能会将编程范式转向更具声明性和精确规范的语言。

黑客新闻新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交登录自主软件翻译的机制 (alperenkeles.com) 12 分，alpaylan 发表于 1 天前 | 隐藏 | 过去 | 收藏 | 讨论帮助指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系搜索：

我们是对的，关于哈瓦那综合症。 We Were Right About Havana Syndrome 21 天前

启用 JavaScript 和 Cookie 以继续。

## 哈瓦那综合征：讨论摘要最近的报道表明，“哈瓦那综合征”——美国人员经历的一系列无法解释的健康问题，可能存在物理原因，但细节仍不清楚。最初被认为不值一提，但证据指向定向能量武器的可能性，可能由俄罗斯开发，甚至被美国军方购买用于测试。讨论的中心是一个通过秘密行动获得的设备，在动物身上进行了测试，结果与报告的症状（脑损伤）相符。然而，仍然存在怀疑。一些人认为美国可能已经掌握了类似技术，并正在淡化问题以保护机密能力。另一些人则认为可能存在心理因素，例如大规模精神性疾病，但承认患者的真实症状。一个关键点是保密可能阻碍调查——既涉及武器的存在，也涉及可能的美国参与。人们对作者的中央情报局背景和潜在偏见表示担忧，以及报告发布的时机是否方便。最终，这场对话凸显了局势的复杂性、对独立医学分析的需求，以及区分真正威胁与虚假信息和掩盖的难度。

What Is a Tort? 21 天前

每日HackerNews RSS