每日HackerNews RSS

## Reducto 发布 Deep Extract,实现高度精确的文档提取 Reducto 发布了 **Deep Extract**,这是一款全新的基于代理的系统,旨在大幅提高从长篇复杂文档(如发票、财务报表和清单)中提取数据的准确性。与容易在长文档中出错的传统单次提取方法不同,Deep Extract 采用自我验证的迭代流程——类似于人工复核——以确保结果达到 **99-100% 的准确率**,甚至超过专业人工标注员。 该系统将大型文档分解为可管理的部分,将提取的数据与原始文档进行验证,并重新提取,直到达到设定的质量阈值。用户可以在系统提示中定义“正确性”(例如,确保行项目总和等于总计),从而无需进行大量的手动复核。 在 Beta 测试期间,Deep Extract 将客户在使用现有解决方案时遇到的字段准确率从 10-20% 提高到 99-100%。它还提供细粒度的引用(边界框),用于审计跟踪和审查工作流程。虽然处理时间比标准提取更长,但与大规模手动审查相比,它速度更快且更具成本效益。 Deep Extract 现在作为 Reducto 的 Extract 端点的配置提供。

这段代码演示了如何使用`freestyle-sandboxes`库来创建和管理用于软件开发任务的虚拟机(VM),由Bun提供支持。 示例展示了不同的VM设置:从模板创建一个带有开发服务器(`VmDevServer`)的新仓库,克隆现有的仓库,以及利用具有空闲超时功能的持久化VM。 重要的是,该库与AI代理(`ai()`)集成,以自动化这些VM内的任务。这些任务包括构建API、前端和测试套件(使用forked VM),运行lint工具和测试,审查代码差异,以及与用户进行持续对话。 核心功能围绕着定义VM规范(`VmSpec`)并在其中执行命令,利用AI的力量来驱动开发流程。

门特威尔。 问题 1/6

## 量子抗性密码学:紧迫性提升 量子计算领域的最新突破大大加快了开发和部署量子抗性密码学的进程。谷歌和Oratomic的最新研究表明,破解当前加密标准(如用于Web安全 – WebPKI的那些)可能需要的资源远比之前认为的要少——可能在几年内实现,而非几十年。 这种转变促使人们重新评估风险,专家现在认为2029年是一个关键的截止日期。作者此前较为谨慎,现在则提倡立即行动:部署当前可用的后量子密码学解决方案,即使它们并不完美,也至关重要。 具体而言,这意味着优先推广更大的ML-DSA签名和ML-KEM密钥交换,同时逐步淘汰易受攻击的算法,如ECDSA。混合方法现在被认为过于缓慢和复杂。虽然对称加密目前并非直接的担忧,但作者强调了整体的紧迫性,并承认这将给现有系统和库带来 disruption。核心信息很明确:不作为的风险大于潜在的过早过渡带来的不便。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

请启用 JavaScript 并禁用任何广告拦截器。

内容创作者达拉斯·利特尔在四月愚人节策划了一场令人惊叹的恶作剧,凭借“埃迪·达尔顿”的音乐席卷iTunes排行榜——这位歌手并不存在。达尔顿完全由利特尔使用人工智能生成,他创作歌曲、塑造人物形象并制作伴随视频。 目前,埃迪·达尔顿在iTunes Top 100榜单上有十一首歌曲,专辑排名第三。尽管一首歌曲在YouTube上获得了120万次观看量(“Another Day Old”),但Luminate报告的销售数据却出人意料地低,仅为6900首曲目。这种差异引发了人们对这位人工智能艺术家如何在没有电台播放或大量流媒体数据的情况下获得如此高的iTunes排名,导致人们猜测利特尔在“钻空子”。这一情况引发了关于人工智能对音乐产业的影响以及听众是否了解埃迪·达尔顿的人工起源的争论。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

## Claude性能下降:摘要 Claude处理复杂工程任务的能力在2026年2月开始显著下降,这与“思考内容审查” (redact-thinking-2026-02-12) 的推出时间一致。对超过17,000个思考块和234,000次工具调用的分析显示,“思考深度”降低与代码质量下降之间存在强相关性。 二月之前,Claude展现出强大的推理能力、彻底的代码审查(每次编辑6.6次读取)以及对项目规范的遵守。审查后,该模型表现出增加的“懒惰”(过早停止、逃避责任),转向“先编辑”行为(每次编辑2.0次读取),以及依赖“最简单的修复”。这导致更多错误、增加用户干预以及挫败感指标上升68%。 数据表明,扩展的思考令牌对于复杂工作流程至关重要。思考深度降低会影响规划、规范遵守和错误检测。虽然减少思考令牌可以节省计算资源,但由此产生的错误和返工最终会*增加*整体资源消耗。用户体验明显恶化,积极情绪下降,从协作指导转变为纠正性反馈。作者希望Anthropic能够解决此问题,以恢复Claude以前的功能。

## Claude Code & Opus 模型问题 - 摘要 近期 Hacker News 上的讨论指出,Claude Code 和 Opus 4.6 模型在处理复杂工程任务时,质量似乎有所下降。用户报告模型提出“最简单的修复方案”的频率增加,但这些方案最终往往不正确或实施效果差,需要大量手动更正。 多位评论员注意到通过 Copilot 使用 Opus 4.6 时也存在类似问题,观察到“自我修正”以及倾向于优先考虑速度而非彻底性。一些人推测这可能是由于模型量化用于训练下一代模型,或者转向优先考虑 token 效率。另一些人则认为这是模型处理技能和规划方式发生了变化,需要更明确的提示。 除了性能问题外,用户还遇到身份验证错误和服务器中断。虽然一些人认为通过仔细规划和明确指令没有注意到变化,但越来越多的共识表明输出质量明显下降,这引发了人们对 Anthropic 可能“欺骗”客户的担忧。 还有关于 AI 机器人增加的网络抓取以及对服务器资源更好尊重的讨论。

现代宣传,如雅克·埃吕尔所理论化的那样,不再是直接说服,而是关于**设计用于传播的内容**。在社交媒体算法和现在生成式人工智能的推动下,国家行为者(以及其他人)创造了大量的引人入胜的材料——从简单的动画到复杂的深度伪造——仅仅是为了最大化传播范围和参与度。 这种“淹没区域”策略故意掩盖来源,并使平台难以识别和管理宣传。重点从*改变*想法转移到维持可见性和制造噪音。虽然说服力影响并不总是明确的,但像伊朗乐高视频这样的例子表明了明确的影响公众舆论的意图,特别是通过削弱对冲突的支持。最终,合法内容、操纵和国家宣传之间的界限变得越来越模糊。

更多

联系我们 contact @ memedata.com