每日HackerNews RSS

人工智能代理的最新进展正在大幅降低发现软件漏洞的成本,可能引发一场广泛的“软件危机”,因为大多数现有代码并非为如此密集的审查而设计。这导致人们对形式化验证的兴趣增加——使用机械工具证明代码的正确性。 最近在Lean生态系统内取得了一项重要里程碑:10个AI代理自主构建并*验证*了一个完整的zlib实现,名为“lean-zip”,保证它没有实现错误。然而,随后的模糊测试(使用另一个AI代理Claude)揭示了一个令人惊讶的结果。虽然lean-zip本身在超过1.05亿次测试后被证明是安全的,但发现了一个缓冲区溢出——并非在经过验证的代码中——而是在Lean 4运行时中,影响所有版本。此外,lean-zip的未经验证的归档解析器中发现了一个拒绝服务漏洞。 这表明,即使是经过形式化验证的代码也依赖于可能仍然存在漏洞的基础系统,并且验证工作必须超出核心应用程序的范围。

一个黑客新闻的讨论强调了使用 Lean 和 Rocq 等工具进行形式化验证的挑战。虽然这些工具可以*证明*代码的正确性,但 Lean 验证了一个程序后发现的错误表明了一个关键点:**证明验证代码与*规范*一致,不一定与预期行为一致。** 评论者和原始帖子作者都经历了这种情况——经过验证的代码包含了一种拒绝服务漏洞,该漏洞源于程序规范中的缺陷。这说明,如果最初的规范不能准确反映期望的结果,完美的证明并不能保证程序没有错误。 令人担忧的是,如果规范没有经过严格审查,依赖于证明助手来验证人工智能的正确性可能会产生虚假的安全性,从而导致经过验证的代码*技术上*符合规范,但却不能实现人类*想要*的功能。

一切工作流所需,都具备弹性。💾 检查点保存:在每个步骤后保存完整的工作流状态。JSON载荷高达1 MB,具有自动差异跟踪和ETags,用于并发控制。 ⏮ 恢复与重放:从最新的检查点恢复,或逐步重放整个工作流历史。代理从中断的地方继续。 🤖 代理身份:使用代理ID标记检查点。跟踪多代理工作流中代理执行的操作,并提供完整的审计跟踪。 📊 分析:内置工作流统计信息、故障模式检测和每代理性能指标。准确了解工作流中断的位置。 🔌 MCP服务器:开箱即用,可与Claude Desktop和Cline配合使用。添加系统提示,您的代理将自动获得持久内存。 💰 基于使用量的定价:提供慷慨的免费套餐:每月10k次写入、1 GB存储空间、5k次恢复。超出此范围只需为实际使用量付费。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 SnapState - AI 代理工作流程的持久化状态 (snapstate.dev) 5 分,robohobo 发表于 51 分钟前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## AI辅助编程:开发者视角 AI辅助编程工具如Copilot和Claude的快速兴起是不可避免的,甚至仅仅*讨论*它也在助长炒作。作者最初对此抵触,完全依赖AI进行代码生成时感到迷失和“文盲”——感觉像是在不断地代码审查,而不是创造。他们通过使用AI处理繁琐的任务,同时保留对核心逻辑和质量的控制,找到了平衡。 然而,这种开发便捷性的提高也带来了挑战。大量快速构建的“氛围代码”项目引发了对长期可维护性和代码质量的担忧,并对开发者的责任提出了伦理问题。AI生成代码的许可仍然是一个灰色地带。 最终,作者提倡负责任地使用AI。它是一种工具,而不是技能和努力的替代品。实验是找到适合个人需求的流程的关键,开发者应该优先考虑质量和责任,无论代码如何生成。核心信息是:继续“努力”——专注于构建伟大的事物,不要害怕将AI作为*过程的一部分*来拥抱。

一篇由一篇倡导编写更少代码的文章引发的 Hacker News 讨论,凸显了关于软件开发瓶颈的争论。一位独立游戏开发者分享了使用 C 和 raylib *不使用* 编码助手构建游戏的积极体验,认为流程可控且进度令人满意。他们认为真正的挑战不是*快速编写*代码,而是代码*背后的思考*。他们批评“更多、更好、更快”的追求在经济上是不可行的,指出增加代码通常会导致更多错误和开发者倦怠。 然而,另一位评论者,过去五年参与招聘 40 多名软件工程师,强烈不同意。他们表示,根据他们的经验,招聘的主要原因*始终*是提高编码产出——代码编写*就是*瓶颈。这次交流揭示了对现代软件开发中最大挑战所在的基本分歧。

## 人工智能生产力陷阱 尽管人工智能工具声称能带来“10倍生产力”的提升,但软件工程师中日益普遍的心理空虚感正在加剧。虽然人工智能加速了代码*生成*,但它通过持续的上下文切换、任务扩展和模糊的工作生活界限,反而*增加了*工作量——导致广泛的倦怠(71%的人报告倦怠,高人工智能用户中高达88%)。 加州大学伯克利分校的研究和行业报告表明,人工智能并没有减少工作,而是加剧了工作强度。人类大脑的分析思维能力约为每秒10比特,被需要审查的大量代码所淹没。质量下降;更大的PR(代码审查请求)导致缺陷检测率大幅下降,而PR的规模现在显著增加(代码行数增加76%)。 具有讽刺意味的是,最依赖人工智能的人最容易倦怠并可能辞职。核心问题是“监管税”——经验丰富的工程师花费*更多*时间批判性地验证人工智能的输出,承担了其他人卸载的认知负荷。这导致身体疲劳、睡眠中断,并最终导致一个系统,即确保质量的关键人员被推向崩溃的边缘。尽管产出增加,但整体组织吞吐量和质量仍然停滞不前。

最近的 Hacker News 讨论强调了追求“10倍”生产力提升所带来的人为代价。有报道称,资深工程师正面临不可持续的工作量,例如一位工程师每周工作 8 点到 8 点,6 天,主要*监督*大量的 AI 代理,这项任务过去需要更大的团队和更多时间。 这种压力增加发生在许多初级工程师被裁员*之后*,导致经验丰富的员工不得不承担负担。评论员质疑“10倍”说法的有效性,指出这通常是一种比喻性的夸大。另一些人认为个人工作习惯和倦怠是促成因素,而 AI 助长了过度工作。核心问题是,公司正在优先考虑 AI 驱动的产出,而忽视了工程团队的福祉和长期可持续性。

“海岸线悖论”表明海岸线的长度不是固定值,而是根据测量比例而变化。正如英国 Ordnance Survey 的 Danny Hyam 所演示的那样,英国海岸线在宏观尺度下(16,652公里)看起来比在更精细的尺度下(超过28,509公里)短得多。 这是因为放大显示会揭示越来越多的复杂特征——海湾、岛屿,甚至单个藤壶——从而增加整体测量长度。你尝试测量得越精确,细节越小,海岸线就变得越长。 本质上,这个悖论强调海岸线的长度会随着你越来越接近而趋于无穷大,因为每一个微小的不规则性都会贡献到总测量值中。这不仅适用于海岸线,也适用于任何不规则的边界或边线。

一场由BBC文章引发的Hacker News讨论,探讨了测量英格兰海岸线这一长期存在的难题。核心问题在于,你越仔细地检查海岸线,就越能发现更多的海湾、曲线和细节,从而无止境地增加其测量的长度——这一概念与分形几何有关。 一位用户提出了一种解决方案:定义一个固定半径,并沿海岸线“滚动”一个该大小的圆,追踪圆行进的距离。这提供了一个可测量的长度,尽管它会根据所选半径而变化。他们进一步建议根据陆地质量的大小来调整半径,以获得一致的结果。 另一位评论者开玩笑地建议使用普朗克长度作为半径来获得“真实”答案,突出了寻求明确测量值所固有的荒谬性。这场讨论强调了在处理复杂的自然形态时,定义测量本身所面临的挑战。

安杰伊·奥德日沃莱克最近在arXiv上发表了一篇文章,表明仅使用函数和常数1,就可以获得所有基本函数。以下方程摘自论文的补充材料,展示了如何从elm函数引导出加法、减法、乘法和除法。有关如何获得常数π以及平方、平方根等函数,以及标准的三角和双曲函数,请参阅论文和补充材料。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 数学极简主义 (johndcook.com) 10 分,chmaynard 发表于 2 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 gus_massa 发表于 6 分钟前 [–] 关于原始文章的深入讨论:https://news.ycombinator.com/item?id=47746610 (781 分 | 21 小时前 | 251 条评论) 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

关于 新闻 版权 联系我们 创作者 广告 开发者 条款 隐私政策和安全 YouTube 工作原理 测试新功能 © 2026 Google LLC

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 气动段式显示屏?[视频] (youtube.com) 18 分,ProfDreamer 2小时前 | 隐藏 | 过去 | 收藏 | 3 评论 帮助 pointpth 3分钟前 | 下一个 [–] 有时候人类真是太棒了。回复 tyleo 27分钟前 | 上一个 | 下一个 [–] 哇,这太低调了。视频开头剪辑了创作者用气动制作的几个其他发明。他们讨论了通常使用气动进行数字逻辑门。 非常棒的东西,我以前从未想过!回复 rbanffy 1小时前 | 上一个 [–] 当你将柔性显示屏与之结合时,它会变得更有趣。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

启用 JavaScript 和 Cookie 以继续。

## 技术岗位衰退与人工智能因素 最近在Hacker News上的讨论指出,技术岗位确实出现了下滑,但认为直接将责任归咎于人工智能还为时过早。 核心问题并非人工智能以承诺的速度取代开发者,而是公司过度投资于基础设施(数据中心)以支持尚未完全实现的人工智能抱负。 用户认为,公司正在押注规模以弥补人工智能当前的局限性,导致在缺乏资源的领域进行代价高昂的建设——最终导致裁员。 尽管过去的基建繁荣(如光纤)需要时间才能获得回报,但人工智能专用硬件(GPU)的快速老化却是一个关键的区别。 对话强调,目前增强型人类比完全由人工智能驱动的解决方案更具成本效益,市场崩盘甚至可能稳定GPU价值,结束虚高的定价。 最终,当前的情况源于对人工智能即时影响的未实现预期,而非其最终潜力。

## Encore:为TypeScript和Go应用提供Rust驱动的基石 Encore 最初是一个Go框架,但它通过*不*扩展Go运行时来支持TypeScript,这令人惊讶。相反,团队用Rust从头开始构建了一个新的运行时。这一决定源于对多语言支持的渴望——模仿了Prisma等项目的成功模式——以及对性能的显著提升。 Rust允许真正的多线程操作,可以并发处理HTTP请求生命周期、数据库连接和追踪等基础设施任务,这在Node.js的单线程环境中是不可能的。这 67,000 多行的Rust运行时现在管理所有基础设施问题,让TypeScript代码专注于业务逻辑。 一个关键创新是“代码中的基础设施”,这得益于一个TypeScript解析器,它可以提取应用程序依赖项和配置。这些元数据驱动着一个在部署时配置的Rust运行时,从而使相同的应用程序可以在不同的环境中运行。 性能基准测试表明,Encore.ts 的吞吐量最高可达 Express.js 的 9 倍,且延迟显著降低,这主要归功于Rust的效率和早期验证。该项目是开源的,核心运行时、绑定和解析器可供检查和贡献。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 为 TypeScript 构建 Rust 运行时 (encore.dev) 9 分,vinhnx 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 jauntywundrkind 0 分钟前 [–] 题外话,但很高兴看到 Elysia 在基准测试列表中名列前茅。我一直在使用它,并将其作为示例代码推荐给我的 LLM,因为它比 Hono 的类型系统好得多。https://elysiajs.com/ 我不知道它也快得像闪电一样。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

N-Day-Bench 衡量前沿语言模型发现现实世界漏洞或“N-Day”的能力,这些漏洞是在模型知识截止日期之后公开披露的。所有模型都使用相同的测试框架和相同的上下文,没有奖励机制漏洞利用的空间。该基准测试旨在衡量真实的网络安全能力,特别是大型语言模型(LLM)的“漏洞发现”能力。此基准测试具有适应性:测试用例每月更新,模型集也会升级到最新版本和检查点。所有记录可公开浏览。Winfunc Research 的一个项目。

## N-Day-Bench:测试LLM在真实漏洞检测中的能力 N-Day-Bench是一个新的基准测试,旨在评估大型语言模型(LLM)发现实际代码库中*真实*安全漏洞的能力。与容易因训练数据污染而过时的静态基准测试不同,N-Day-Bench每月更新一次,使用直接从GitHub安全公告中提取的新案例。 该过程包括为LLM(目前包括GPT-5.4、Claude Opus、Gemini、GLM和Kimi)提供一个沙盒环境,以便在应用安全补丁*之前*探索代码。一个自动“策展人”从公告中创建答案,而“发现者”(LLM)尝试在24个shell步骤内识别漏洞。“评判者”然后对结果进行评分。 该项目专注于流行的仓库(10k+星标),并优先考虑透明度,提供公开的方法论、实时排行榜以及每次尝试的详细跟踪。一位评论者建议添加*没有*漏洞的案例,以衡量误报率。 [https://ndaybench.winfunc.com/](https://ndaybench.winfunc.com/)

更多

联系我们 contact @ memedata.com