每日HackerNews RSS

## LLM“智能”的局限:从输出到对抗性推理 AIE迈阿密和欧洲的门票现已开售!最近的讨论强调了当前人工智能能力的一个关键差距:虽然大型语言模型(LLM)可以*生成*类似于专家作品的输出(代码、简报等),但它们缺乏在复杂现实世界场景中蓬勃发展的*对抗性推理*能力。 核心问题不在于智能,而在于**模拟深度**。专家不仅评估信息,还会模拟他人将如何反应和利用漏洞。LLM主要在静态数据和人类偏好上进行训练,难以模拟这些动态交互——本质上,它们不理解*自己*正在被模拟。 例如,撰写电子邮件:LLM可能会生成礼貌的请求,而经验丰富的专业人士会理解如何针对特定收件人进行措辞以确保回复。这种差异源于缺乏在代理适应和利用可预测性的环境中进行训练。当前的AI擅长于具有固定规则的“棋类”问题,但在具有隐藏信息和自利行为者的“扑克类”场景中表现不佳。 解决方案并非仅仅扩大LLM的规模,而是创建专注于多智能体交互并奖励结果——而不仅仅是看似合理输出的训练循环。人工智能的未来在于构建能够预测、适应并在每个人都在积极试图智胜对方的环境中保持稳健的模型。

## LLM 与世界模型:一个关键区别 最近在 Hacker News 上的讨论强调了专家拥有的“世界模型”与大型语言模型 (LLM) 的“词汇模型”之间的关键差异。虽然 LLM 在处理和生成语言方面表现出色,但它们并不真正*理解*世界。语言是对现实的不完美表述,充满了惯例、不准确,甚至故意的误导。 即使使用超越文本的训练数据——包括代码、图像和视频——LLM 仍然受其语言基础的限制。一位评论员指出原文中的一个矛盾,注意到 LLM 在国际象棋方面并不出色,尽管声称在“类似国际象棋的领域”中占据主导地位。 核心问题在于 LLM 学习的是语言*内部*的模式,这些模式可能无法准确反映现实世界的模式。这可能导致自信但错误的结论,尤其是在在线信息存在缺陷的领域,例如关于清洗蘑菇的一个例子所说明的。多模态可能有助于弥合这些差距,但根本区别仍然存在。

## 开源图书馆志愿者构建全面的南希·德鲁系列藏书 开源图书馆的志愿者团队最近完成了一个历时数月的项目,将庞大的南希·德鲁系列图书整理成一个统一的、可公开访问的藏书。该项目由志愿者艾米丽发起,她是一位最近毕业的图书馆学专业学生,项目利用了她在教育中培养的协作精神。这个国际团队遍布东京、巴基斯坦和美国,通过Zoom连接,并使用详细的Google文档进行异步规划。 起初,团队考虑使用自动化方法,但最终选择手动添加元数据标签,以确保准确性和可访问性,尤其考虑到网络速度问题。这项工作涉及大量的元数据清理,包括更正“卡罗琳·基恩”笔名下的作者署名,并得到了开源图书馆工作人员的协助。 志愿者们受到怀旧之情、学习图书馆技能的愿望以及为他们喜爱的系列作品做出贡献的机会的激励。目前的工作包括完善系列顺序和添加特色藏书。艾米丽强调了人际连接的重要性,并建议未来的项目从现场元数据编辑演示开始,以简化流程。有兴趣贡献力量吗?开源图书馆网站上提供志愿者报名表。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 一个社区整理的南希·德鲁系列作品集 (openlibrary.org) 3点 由 sohkamyung 1小时前 | 隐藏 | 过去的 | 收藏 | 1条评论 N_Lens 21分钟前 [–] 我年轻时很喜欢南希·德鲁,这里有不错的收藏。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 社交媒体的演变——以及倒退 Susam Pal 反思了社交媒体从最初充满希望、真正*社交*的开端,到如今吸引注意力的平台的转变。早期的 Web 2.0 网站,如 Twitter,促进了真实的连接,提供来自用户主动关注的人的更新,以及有意义的通知。 然而,大约在 2012-2016 年间,无限滚动和具有操纵性的无关通知等变化开始将平台参与度置于*高于*用户体验的优先级。时间线充斥着来自陌生人的内容,将社交空间变成了压倒性的广播。 对此感到幻灭的作者发现了 Mastodon,一个让人联想到早期社交媒体的平台。Mastodon 优先考虑用户选择,*仅*提供来自关注帐户的更新,提供一种平静、可预测的体验,摆脱了操纵手段。它代表了对社交媒体最初承诺的回归——基于真诚兴趣的连接,而不是算法控制。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 媒体 ≠ 社交媒体 (susam.net) 6 分,由 susam 2小时前发布 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Chocolate Doom 与 C23 重建 为 Fedora Linux 维护 DOOM 软件包在预发布的大规模重建过程中出现了一个意外的转折。这次旨在提高兼容性和安全性的重建,由于默认 C 标准的改变,导致 Chocolate Doom 移植版本出现故障。GCC 15.0.1 将标准从 C17 更改为 C23,这与 Chocolate Doom 的自定义布尔类型定义产生了冲突。 问题在于 C23 将 `false` 和 `true` 视为关键字,与引擎基于枚举的布尔实现相冲突。最初的修复尝试强制使用 C17 编译,但最终,选择修改代码以利用 C23 的内置 `bool` 类型。 然而,这引入了一个更深层次的错误:将布尔值初始化为 -1 会导致使用 `_Bool` 类型时出现意外行为,从而在启动期间引发错误。调试发现,当 `_Bool` 类型初始化为 -1 时,会将该值解释为 true *和* false,从而导致未定义行为。根本原因在于枚举比较与 `_Bool` 比较生成的汇编指令不同。最终的修复方案是承认这种未定义行为,并确保使用有效的 `_Bool` 值。

一篇最近的博客文章详细描述了在C语言中调试的过程,在Hacker News上引发了讨论。作者遇到一个布尔变量的意外行为,该变量似乎同时持有真和假值。 评论者们争论了最佳的调试方法。有人建议立即使用编译器消毒器,如`-fsanitize=undefined`,以获得清晰的错误信息,而另一些人则提倡理解问题*为什么*发生,即使这意味着通过Compiler Explorer深入到汇编代码中。 一个关键点是,为遗留代码指定C标准(如C17或更早版本)的重要性,因为较新的标准施加了更严格的规则。根本原因在于使用C99的`bool`类型,其值不为0或1,这会导致未定义行为。最终,讨论强调了在调试C代码时,快速修复和更深层次理解之间的权衡。

## Roundcube 远程图片跟踪漏洞 Roundcube Webmail(< 1.5.13 和 < 1.6.13)存在安全漏洞,允许攻击者绕过“阻止远程图片”设置并跟踪邮件打开情况。该问题源于 Roundcube 的 HTML 净化器 (`rcube_washtml`) 处理 SVG `<feImage>` 标签的方式。 净化器正确地阻止了 `<img>`、`<image>` 和 `<use>` 标签中的外部资源,方法是将它们的 `href` 或 `src` 属性路由到一个阻止函数,但 `<feImage>` 的 `href` 属性被错误地处理为标准链接,允许 HTTP/HTTPS URL 通过。 这使得攻击者能够在邮件中嵌入隐藏的 SVG 图片。当邮件被打开时,浏览器会尝试加载该图片,从而触发对攻击者服务器的请求,泄露用户的 IP 地址以及潜在的其他浏览器信息。 Roundcube 1.5.13 和 1.6.13 版本已通过更新净化器来正确识别和阻止 `<feImage>` 标签内的远程资源来修复此漏洞。建议用户更新到这些版本以降低风险。

Roundcube Webmail存在一个安全漏洞,即使启用了图像阻止,仍允许邮件开启追踪。研究人员(nullcathedral)发现利用`feImage`元素可以绕过阻止,使追踪器能够undetected地运行。 Hacker News上的讨论强调了对抗邮件追踪的持续斗争。一位用户提出了一种解决方案:主流邮件客户端可以*始终*为非垃圾邮件预取图像,从而有效地使邮件开启追踪标记失效。 其他评论员赞扬Roundcube的简洁性和速度,同时也质疑这个问题是否仅限于Roundcube,或者是一个更广泛的问题,可能影响其他网络邮件客户端。该漏洞凸显了在维护隐私方面面临的挑战,因为追踪方法日益复杂。

启用 JavaScript 和 Cookie 以继续。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 停止使用面容 ID (pcmag.com) 17 分,由 speckx 1 小时前发布 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

一款关于在红色星球上生存和建造的火星殖民游戏。灵感来自金·斯坦利·罗宾逊的《火星三部曲》。作者:Aria Alamalhodaei。关注X。支持该项目。发送反馈。返回殖民地。

Ariaalam创作了“Underhill”(underhillgame.com),一款受金·斯坦利·罗宾逊的火星三部曲启发的桌面角色扮演游戏。游戏任务是建立和管理一个火星殖民地,专注于收集资源,如太阳能和食物生产,同时在沙尘暴等挑战中生存。 殖民地最终分裂成两个派别:“绿党”,他们提倡地球化改造,以及“红党”,他们更喜欢保护火星环境。玩家可以选择轻松的“休闲模式”来建造,或者选择更动态的“冲突模式”,在星球缓慢转变的同时,红党会积极破坏绿党的努力。 早期用户通过Firefox在Android上的测试反馈指出存在性能问题——具体表现为文本渲染缓慢和音乐间歇性出现。开发者欢迎进一步的反馈,特别是关于性能和游戏玩法方面的。

## Bun 发布总结 本次 Bun 版本带来了全面的性能改进和错误修复。**包脚本执行**通过 `--parallel` 和 `--sequential` 标志增强了并发或有序运行,同时支持 `--filter` 和 `--workspaces`。测试中的模拟现在使用 `Symbol.dispose` 自动恢复模拟。 **性能提升** 包括正则表达式的 SIMD 加速(某些情况下快高达 3.9 倍)和 Markdown 渲染(快 3-15%)。对 `String.prototype.startsWith`、`Set/Map#size` 和 `String.prototype.trim` 的优化进一步提高了速度。CPU 分析器现在支持通过 `--cpu-prof-interval` 配置采样间隔。 **关键修复** 解决了 ARM64 处理器兼容性问题、`NO_PROXY` 处理(现在适用于显式代理)以及 HTTP/2 服务器连接升级问题。Node.js 兼容性通过修复 Windows 上的 `fs` 操作和 `Function.prototype.toString()` 得到了改进。 多个 TypeScript 类型定义已被更正。 最后,WebSocket 客户端崩溃和 HTTP 请求挂起问题已得到解决,同时修复了 HTTP 服务器分块编码解析器中的安全漏洞。

## Bun v1.3.9 及并行/顺序执行 最近的 Hacker News 讨论集中在 JavaScript 运行时 Bun v1.3.9 中的新并行和顺序执行功能上。用户质疑这些功能的需求,认为简单的 bash 脚本可以实现类似的结果。 主要亮点包括跨平台兼容性(允许 Windows 用户构建/测试)、能够从 `package.json` 运行多个命令而无需重复调用 Bun,以及查询/过滤特定命令的能力(例如运行所有测试)。 相关讨论还涉及最佳术语: “并行和顺序” 与 “并行和串行”。虽然两者都易于理解,但评论员更倾向于在任务运行器中使用“顺序”,因为任务会一个接一个地完成,并指出“串行”带有电气工程中的并发含义。最终,内置功能比依赖外部脚本提供了更简洁、更具可扩展性的解决方案。

403 禁止访问

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 第一款钠离子电池电动汽车在冬季续航方面表现出色 (insideevs.com) 19 分,由 andrewjneumann 54 分钟前发布 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

这篇帖子详细描述了使用Lean定理证明器对《网络追击》(Cyberchase)一集中策略的正式验证。作者受到该节目强调数学原理推导的启发,解决了一个游戏中,玩家移除龙,但要避免移除一只会导致失败的红色龙的问题。 核心挑战在于证明,将对手逼入能被四整除的状态(“毒数”)的策略保证获胜。这需要用Lean定义游戏规则,解决递归函数可能导致的非终止问题(通过证明游戏状态总是减少来解决),并最终运用数学归纳法。 这个过程突出了Lean的力量和复杂性,展示了如`rw`(重写)、`simp`(简化)、`induction`(归纳)等策略,以及利用现有和新创建的定理。作者强调了Lean的严格检查,即使对于由自动化策略(如`omega`)生成的步骤,也能确保证明的正确性。 最终,完整的、经过正式验证的证明可在GitHub上找到,展示了像Lean这样的工具如何超越直观理解,为复杂系统提供绝对的确定性,其应用范围延伸到分布式系统和编译器验证等领域。作者鼓励读者探索Lean,从自然数游戏开始。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 正式使用Lean4验证PBS儿童节目 (shadaj.me) 11点 由 shadaj 2小时前 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

更多

联系我们 contact @ memedata.com