每日HackerNews RSS

## AI 必然出现的幻觉 OpenAI 的研究表明,“幻觉”——像 ChatGPT 这样的大型语言模型自信地陈述错误信息——并非错误,而是这些模型运作方式的数学上的*必然*结果。即使使用完美的数据进行训练,逐字预测文本的概率性质本身就不可避免地导致错误累积,从而导致比简单任务更高的错误率。 当前 AI 评估基准进一步加剧了这个问题,这些基准会惩罚不确定性,有效地奖励自信的猜测,而不是承认“我不知道”。这为模型*始终*回答创造了强大的动机,即使回答不正确。 虽然存在解决方案——例如模型量化自身的置信度,以及基准奖励诚实的模糊性——但它们面临着重大障碍。评估不确定性的增加计算成本使其对于需要快速、廉价响应的消费者应用来说过于昂贵。目前,商业激励措施优先考虑自信的答案和速度,而不是准确性,这意味着幻觉可能会在广泛使用的 AI 系统中持续存在。然而,对于准确性胜过成本的关键应用(例如金融或医学),采用感知不确定性的 AI 在经济上是可行的,也是必要的。

## OpenAI 研究:幻觉不可避免(且受惩罚) 最近一篇 OpenAI 的研究论文,在 Hacker News 上讨论,强调了防止大型语言模型 (LLM) “产生幻觉”——自信地提供错误信息——的固有挑战。核心问题在于,当前的基准测试*惩罚*模型表达不确定性(“我不知道”),激励它们猜测而不是承认局限性。 用户希望得到明确的答案,而经过训练以优先执行操作而非承认不确定性的模型,在领先的排行榜上表现更好。讽刺的是,基础模型通常比经过后训练的模型更“校准”(在置信水平上更准确)。 评论者提出了诸如单独的“自信”和“诚实”模式、新的基准测试系统,以及训练模型明确识别其知识边界等解决方案。然而,一个关键点是,LLM 被设计用来*回答*问题,不一定是为了准确评估它们自身回答问题的能力。最终,讨论的中心是事实准确性和用户体验之间的权衡,以及优先考虑自信(即使可能不正确)的回答是否在经济上有利。

关于按住版权联系我们创作者广告开发者条款隐私政策和安全性YouTube的工作原理测试新功能© 2025 Google LLC

基于能量的Transformer [视频] (youtube.com) 43点 由 surprisetalk 1天前 | 隐藏 | 过去 | 收藏 | 3条评论 cs702 1天前 | 下一个 [–] 我建议阅读主要作者的博客文章,而不是观看这个视频:https://alexiglad.github.io/blog/2025/ebt/ 另外,请参阅:https://www.reddit.com/r/MachineLearning/comments/1lu1ia0/r_...回复 programjames 1天前 | 父级 | 下一个 [–] TLDR;训练一个“能量”模型来检查输出是否正确(而不是直接输出),并使用梯度下降来寻找好的输出。使用Transformer。回复 tripplyons 1天前 | 上一个 [–] 我之前看过该频道的一些视频,其中很多都包含错误。我还没有阅读《基于能量的Transformer》论文,所以不能确定这个视频是否包含任何错误,但请小心。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

现代复杂系统——从互联网到供应链——并非源于宏伟设计,而是源于简单、可用的原型,并随着时间的推移不断迭代改进。尽管偏好“系统思考”和精细分析,但试图*控制*这些系统的尝试往往以惨败告终,例如HealthCare.gov和澳大利亚残疾人福利改革的代价高昂的失败就证明了这一点。 核心问题不是缺乏分析工具,而是对复杂系统行为方式的误解。它们抵抗操纵,干预往往会适得其反——这一原理类似于化学中的勒夏特列原理。成功的系统构建并不在于修复现有的复杂性,而在于从一个*简单*且可用的系统开始,并允许其演化。 美国洲际弹道导弹计划和爱沙尼亚的数字政府等例子证明了这一点:绕过现有的官僚机构,创建重点明确、负责任的新系统,取得了积极成果。即使像人工智能生成代码这样的进步也无法克服这一基本原则。随着系统变得越来越复杂,并可能超出人类控制范围,优先考虑简单、实用的开端,提供了最可行的前进道路——回归所有成功系统的起源。

## Hacker News 讨论“神奇的系统思维”总结 Hacker News 的讨论围绕一篇批评“系统思维”的文章展开,该文章认为它常常被误用且无效,尤其是在大型项目中。文章的核心观点——构建或修复复杂系统很困难——引发了争论。 许多评论者不同意文章对该领域的广泛否定,认为它歪曲了系统思维。他们指出,真正的系统思维*承认*模型的局限性,预见对变革的抵制,并专注于理解现有系统,而不是强加自上而下的解决方案。 许多人强调认识意外后果和反馈循环的重要性。 一个主要的争论点是作者是否攻击了一个稻草人——对系统思维的错误描述——这源于对官僚主义的负面经历。 另一些人认为,作者的批评源于对从头开始构建的偏好,这与该出版物的理念一致。 讨论还涉及了诸如控制论、复杂性理论以及实践应用与理论建模的重要性等相关领域。最终,共识倾向于系统思维是一种有价值但细微的方法,但常常受到误解和不切实际的期望的阻碍。

未来已来:LinHT 首次成功启动。我们相信软件定义收发机将是业余无线电的下一个大趋势。LinHT 是当今业余无线电领域最重要的硬件项目。Bruce Perens, K6BP https://perens.com/2025/08/12/whats-wrong-with-ardc/ 该测试设备没有射频放大器(尽管我们将在下一次修订版中包含 GRF5604 射频放大器,见此)。此测试设置的输出功率约为 5dBm。频率范围:420-450MHz (UHF)。尽管有些人怀疑这种设计是否可行,但我们坚持不懈地继续工作。特别感谢 Vlastimil OK5VAS 和 Andreas OE3ANC。没有你们的帮助,这个项目不可能实现。LinHT 快速初步预览。该设备是开源硬件。PCB 设计在这里提供。原型制作总成本:– PCBWay 的 PCB+组装费用为 490 美元(5 件)– Retevis C62 (供体)– SoM 费用为 469 美元,5 件。

一个新的开源软件定义无线电(SDR)业余无线电收发器原型正在业余无线电社区中引起关注(m17project.org)。Hacker News上的用户正在讨论它的潜力,特别是与FreeDV音频编解码器结合使用时,这可以显著提高数字通信的范围和清晰度。 讨论要点包括项目的模数/数模转换器、潜在的更宽带宽录制能力(例如整个2米频段)以及对现有SDR应用程序(如rtl_tcp_echo)的可能软件贡献。 成本是一个关键问题,预估零件费用在60美元左右,优化生产后零售价可能在100美元或更低。有人建议自行组装可以进一步降低成本,而另一些人指出进口关税会迅速推高已组装板的价格。500美元的初始投入被视为个人爱好者的障碍,但该项目让人想起业余无线电和计算中较早、更易于获得的套件构建机会。

德米斯·哈萨比斯,谷歌DeepMind的首席执行官和2024年诺贝尔奖得主,认为“学习如何学习”将是未来世代最重要的技能。他在雅典发表演讲时强调,人工智能驱动的变革速度前所未有,使得长期预测变得困难。他预计通用人工智能——具有人类水平能力的人工智能——可能在十年内到来,可能带来一个“激进的富足”时代,同时也伴随着内在风险。 哈萨比斯强调,除了传统的学术科目外,培养“元技能”——理解*如何*学习和适应——至关重要。在职业生涯中持续学习将是必不可少的。 希腊总理基里亚科斯·米佐塔基斯也出席了活动,他强调人工智能可能加剧金融不平等,并警告如果收益未能广泛共享,可能会引发社会动荡。他讨论了在政府服务中扩展人工智能的应用,同时也承认需要公平分配其优势。

## 486Tang:将486 PC移植到Sipeed Tang Console 开发者最近发布了486Tang v0.1,这是ao486 MiSTer PC核心移植到Sipeed Tang Console 138K FPGA的版本。这是ao486首次在非Altera FPGA上运行。 关键的调整包括切换到SDRAM作为主内存(采用“双泵”技术来弥补其16位宽度),并利用SD卡作为SD卡支持的IDE,因为Tang缺乏高速MCU接口。实现了一个引导加载程序,用于从SD卡加载必要的PC组件。 该系统的启动严重依赖Verilator进行快速的、全系统仿真,并借助调试钩子,利用Bochs BIOS调试输出和针对声音卡和IDE等子系统的定向跟踪来辅助调试。 最初的性能较低,约为25MHz,但通过优化——包括复位树的减少、指令提取的简化和TLB的修改——性能提高了35%,达到了大约486SX-20的水平。该项目突出了x86架构相对于更简单的RISC设计的复杂性,以及在FPGA开发中时钟速度扩展的重要性。

## 在FPGA上实现486:复古计算项目 一位开发者成功地在信用卡大小的FPGA板上实现了486处理器([nand2mario.github.io](https://nand2mario.github.io))。该项目使用DDR3 SDRAM用于视频,之所以选择它是因为与FPM或EDO内存相比,它更容易与软CPU配合使用,尽管这与486原始时代并不相符。目前,该实现使用了FPGA的44%的LUT和59%的BRAM。 讨论围绕内存选择展开,一些人指出DDR3在复古项目中的局限性在于时钟速度的限制。另一些人则探索其他兼容486的硬件,例如Via Eden板或AMD的Élan/Geode处理器,但承认它们的复杂性更高或已停产。 该项目引发了人们对在现代工艺中重现经典硬件的兴趣,以及构建能够运行较旧游戏(如DOOM)的小型低功耗系统的潜力。它还引用了Valve在E3演示中Half-Life 2中的一个幽默时刻,俏皮地暗示了该系统的能力。

请启用 JavaScript 并禁用任何广告拦截器。

## 太平洋上升流中断与气候讨论 近期《纽约时报》的一篇文章(以及相关的PNAS研究)报道了2025年巴拿马沿海年度太平洋冷水上升流出现前所未有的抑制,引发了Hacker News上的讨论。这一事件,在至少过去40年中一直“像时钟一样规律”,可能对海洋生态系统和全球气候产生重大影响。 评论者深入探讨了这一现象背后的科学原理,引用了埃克曼输送和拉布拉多洋流、墨西哥湾暖流等洋流的重要性。 存在关于仅仅增加计算能力是否能改进气候模型的争论,许多人认为缺乏细粒度的初始数据(积雪量、土壤条件等)是更大的障碍。 担忧范围涵盖了海洋在氧气生产和碳吸收中的作用,到潜在的“缺氧事件”情景以及北极冰融化造成的温度缓冲丧失。 一些人对耸人听闻的报道表示沮丧,而另一些人则强调了气候科学的政治化。 这次讨论强调了气候建模的复杂性以及地球变暖可能带来的意想不到的后果。

启用 JavaScript 和 Cookie 以继续。

## 火星样本返回任务决策推迟 美国国家航空航天局已将火星样本返回(MSR)任务的最终决策推迟至新一届政府——现在是特朗普-万斯政府的第二任期。 延期源于最初由喷气推进实验室提出的成本高昂的方案存在问题、当前美国国家航空航天局的预算挑战以及内部重组。 美国国家航空航天局目前正在评估两种着陆方案:利用既定的“空中起重机”方法(由“毅力号”和“好奇号”使用),该方法由内部开发,或与外部公司签订新的、固定价格的解决方案。 评论员指出,虽然美国国家航空航天局在努力推进该项目,但SpaceX也在开发火星殖民能力,*可能*将样本返回作为副产品。 然而,关于SpaceX能否按时完成雄心勃勃的时间表以及其对轨道加注等未经验证技术的依赖,存在争议。 中国也有计划在2028年执行火星样本返回任务,这突显了国际竞争。 一些人认为,如果一家私营公司已经在追求这一目标,美国国家航空航天局应该专注于其他优先事项。

一场惊险的《血钱》粉丝游戏,生存与激情交织。当生活逼你陷入绝境,为了拯救生命需要一笔昂贵的费用时,你将发现意想不到的相遇有时能成为解决问题的方案。体验一场沉浸式的互动冒险,以你从未想象过的方式与哈维互动。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 [已标记] ljx2685222739 1天前 | 隐藏 | 过去 | 收藏 coldfoundry 1天前 | 下一页 [–] 手机上立刻弹出虚假的安卓安全漏洞广告,绝对不会尝试这个。这可能是.xyz顶级域名被许多地方列入黑名单的原因。 LoganDark 1天前 | 上一页 | 下一页 [–] 哦不,我的Adobe Flash Player已过时。在macOS 26上。在2025年。 ljx2685222739 1天前 | 上一页 [–] 你觉得界面怎么样? 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Mago:现代PHP工具链 Mago是一个用Rust构建的极速PHP代码检查器、格式化工具和静态分析器,旨在通过速度和可靠性提升PHP开发体验。它借鉴了Rust生态系统的工具设计,提供全面的代码分析,通过可定制的linting规则识别问题,并执行深入的语义检查以捕获错误。 主要特性包括自动化代码修复、自动格式化以符合编码规范,以及AST可视化以理解代码结构。安装方式简单,可以通过shell脚本(macOS/Linux)或Homebrew、Composer、Cargo进行安装。 Mago的灵感来源于Clippy、OXC和Hakana等工具,同时也认可PHP-CS-Fixer、Psalm和PHPStan等现有PHP工具的贡献。它是一个社区驱动、双许可的项目,欢迎所有开发者的贡献。

## Mago:一种用 Rust 构建的新 PHP 工具链 - 摘要 Mago 是一种用 Rust 构建的新的、快速的 PHP 工具链,旨在改进静态分析和代码检查。虽然它有望比 PHPStan 和 Psalm 等成熟工具更快,但早期反馈表明它目前处于 Beta 阶段,功能存在显著差距,特别是缺乏完整的 PHPDoc 解析以及对 PHP 核心功能(如内置异常)的支持。 作者承认这些不足,并强调正在进行的工作以解决这些问题,重点是魔术方法和属性标签的支持。他们的目标不是完全替代现有工具,而是利用 Rust 的性能优势采取不同的方法。 讨论还涉及在 PHP 生态系统中获得关注的挑战、Rust 改进跨语言工具的潜力,以及与类似项目(如 FrankenPHP)的比较。尽管雄心勃勃,Mago 在采用新 PHP 功能方面的灵活性可能是一个关键的差异化因素,可以比当前依赖驱动的方法更快地支持即将到来的语言变化。然而,它的成功取决于实现功能对等,并说服 PHP 开发者采用非 PHP 工具。

更多

联系我们 contact @ memedata.com