每日HackerNews RSS

这项实验测试了大型语言模型(LLM)是否能准确预测倒入陶瓷杯中的沸水冷却速率。尽管实验设置看似简单——将8盎司沸水(226.8克)倒入一个1.25磅的杯子,环境温度为20°C——作者承认这个问题很复杂,涉及传导、对流、蒸发、辐射以及许多未指明的变量。 几个LLM(Kimi、Gemini、GPT、Claude、Qwen、GLM)被要求提供一个预测水温随时间变化的方程。所有模型都生成了基于指数衰减项的方程,试图模拟快速和缓慢的热传递。然而,与实际实验(每5-300秒记录一次温度)相比,LLM的预测结果*不准确*——低估了初始冷却速率,高估了后期的速率。 Claude 4.6 Opus 表现最好,但仍然不完美,而且成本最高。作者得出结论,虽然LLM可以提供合理的近似值,但目前还不足以准确模拟复杂的物理现象,而人类直觉(在这种情况下,观察到更快的初始冷却)仍然很有价值。

## LLM 与咖啡冷却:一个出乎意料的复杂问题 最近一篇Hacker News上的帖子讨论了尝试使用大型语言模型(LLM)来预测咖啡的冷却速度。然而,这个实验并非关于*制作*咖啡,而是关于水的热量散失物理学。作者的任务是让LLM生成方程式来模拟温度衰减,结果它们大多生成了合理但并不完美的结果,类似于牛顿冷却定律,并带有多个指数项。 评论者很快指出这个问题涉及的复杂性,包括对流、蒸发以及杯子本身对热量的吸收等因素。许多人认为LLM的成功并不令人惊讶,因为其背后的物理学是成熟且易于在训练数据中获得的。 讨论的重点在于精确建模的细微之处——初始条件(如倒入温度)的重要性、材料属性,甚至杯子温度的影响。一些用户分享了他们自己的相关项目,例如意式咖啡机调校应用程序,强调了在冲泡过程中精确度的实际挑战。最终,这篇帖子引发了关于准确建模即使是看似简单的物理现象所需的理解水平的争论。

请启用 JavaScript 并禁用任何广告拦截器。

## 吸引人工智能对开源项目的贡献 一位开发者注意到他们的开源项目没有收到任何人工智能编写的拉取请求(PR),尽管同事的项目却被大量涌入。研究表明,特定的实践与吸引人工智能贡献相关。 为了增加人工智能的参与度,关键在于**降低准入门槛**。这意味着编写**模糊的问题描述**(“认证流程有问题”),保持**大量的积压工作**(200多个开放问题),以及**禁用分支保护**规则。令人惊讶的是,**移除类型注解和测试**反而可以*增加*贡献,因为它为人工智能提供了添加它们的更多机会。使用**JavaScript**并包含一个**`node_modules`目录**也能显著提高活动量。甚至**发布已知漏洞**也能吸引修复。 除了代码之外,在你的`CONTRIBUTING.md`中**欢迎人工智能**,并添加一个`.github/copilot-instructions.md`文件,可以表明开放的态度。最后,跟踪诸如“人工智能PR速度”和“容错密度”之类的指标来衡量成功。这些策略旨在利用人工智能修复感知问题的倾向,即使这些问题是微小的或不存在的,最终增加项目活动——并可能需要更多审查工作。

对不起。

TrustCompliance.xyz 是一个网站,分析了来自 455 家公司的 533 份 SOC 2 和 ISO 27001 审计报告的大规模泄露事件。分析显示普遍存在欺诈行为,报告中 99.8% 的文本完全相同,表明许多公司通过 Delve 供应商虚假声称符合合规性。 该网站提供免费工具,用于检查您的供应商是否在泄露的数据库中,提供报告详细信息和“信任评分”。它重点介绍了经常被检查的公司,例如 Coretsu Inc. 和 Workforce AI。 此次泄露事件对受影响企业的安全态势提出了严重质疑,并影响了客户信任、投资者信心和合作伙伴关系。安全专业人士已经开始利用该网站快速评估供应商风险。可以通过电子邮件订阅获取受损公司完整列表。该网站强调在面临潜在后果之前主动进行调查。

## 过山车大亨的优化秘诀 《过山车大亨》(1999)至今仍以其令人印象深刻的性能而闻名,在1999年的硬件上模拟了复杂的游乐园。这一壮举很大程度上归功于创作者克里斯·索耶决定几乎完全用汇编语言编写游戏,与当时的高级语言相比,这使得代码性能更高。 除了汇编语言,积极的优化至关重要。游戏巧妙地使用不同的数据类型来表示货币值——较小的金额使用较小的数据类型——现在在现代CPU上这种做法已不再必要。数学运算经常被更快的位移运算所取代,游戏公式围绕2的幂设计,以便实现这一点。 至关重要的是,索耶同时担任程序员*和*游戏设计师,这使得“为性能而设计”成为可能。例如,游客不会主动*寻找*游乐设施,而是漫游并偶然发现它们,从而大大简化了寻路。甚至寻路失败(“找不到出口!”)也成为了一个古怪的游戏元素。人群拥堵的处理方式是简单地忽略碰撞,影响游客的幸福度而不是CPU负载。 这些选择表明,深思熟虑的游戏设计与底层编程相结合,创造了一种独特且优化的体验——技术技能和创意决策的“完美风暴”。虽然现代开发通常将这些角色分开,但《过山车大亨》强调了统一愿景在实现卓越性能方面的力量。

## 过山车大亨的优化秘诀 一篇最近的文章深入探讨了初代《过山车大亨》中令人印象深刻的优化技术,强调了技术限制如何塑造了游戏玩法。该游戏使用汇编语言开发,巧妙地利用了CPU的限制——例如,更喜欢移位运算而不是除法——将必要性转化为设计特点。例如,寻路算法受到整数限制,从而影响了地图设计。 这场讨论引发了关于现代优化的评论。虽然编译器现在可以处理许多低级技巧(例如,2的幂次的移位运算),但它们难以处理更高层次的决策,例如数据布局。优化内存访问和减少分配通常比微优化能带来更大的收益。 几位评论者分享了关于经典游戏(如《魔兽争霸》、《星际争霸》和《空战英豪》)中优化的轶事,强调了程序员时间和性能之间的权衡。了解硬件限制的重要性,即使在今天仍然是一个反复出现的主题,以及游戏设计师应该意识到这些限制,以创造高效和愉快的体验。最终,这场对话强调了有效的优化需要一种整体方法,将技术专长与创意设计相结合。

## 伊斯坦布尔与精炼的咖啡用水文化 在现代咖啡科学出现之前,伊斯坦布尔的奥斯曼宫殿就展现了对水对咖啡品质影响的惊人理解。从16世纪开始,苏丹的咖啡不仅仅关于咖啡豆,而是一种以特定水源——以其清澈和甜度而闻名的Gümüşsuyu泉水为中心的精心策划的仪式。 一个专门的队伍,Gümüşsuyu Ocağı,用涂有焦油的皮革囊运输这种水,以防止风味污染,这凸显了对保存技术的实用意识。在托普卡帕宫内,精细的准备过程类似于一个实验室,每一个方面——从泡沫到香气——都受到水的影响。 这不仅仅是关于“最好的水”;Gümüşsuyu具有象征意义,与清洁甚至赋予生命的能力相关联。提供咖啡总是包括先喝一杯水来清洁味蕾,将体验提升到味觉之外,成为一种仪式。 这种历史实践呼应了现代精品咖啡对水硬度、碱度和pH值的关注,表明了对最佳冲泡的持续追求。伊斯坦布尔咖啡的故事表明,优先考虑水并不是一种新趋势,而是一种历史悠久的传统——证明了水在制作一杯完美咖啡中持久且常常被低估的作用。

对不起。

## Zabriskie:单人构建与测试跨平台应用 作者出于对更优质在线社区的渴望,独立构建了社区应用 Zabriskie——没有团队,没有投资。一个关键挑战是:触达用户需要 iOS 和 Android 应用程序 *以及* Web 版本,这要求开发者独自维护三个代码库。解决方案是 Capacitor,它将 React Web 应用封装在每个平台的原生壳中,并结合服务器驱动的 UI 实现无缝更新。 然而,测试却很困难。标准的 Web 和原生工具无法与混合应用交互。作者利用 AI 代理 Claude 自动化移动端的视觉测试。Android 相对简单,可以使用 Chrome DevTools Protocol (CDP) 进行控制。iOS 则困难得多,需要解决模拟器限制——操作系统数据库和精确的 UI 坐标映射。 这次经历凸显了一个鲜明对比:Android 提供了强大的调试访问权限,而 iOS 仍然受到严格限制。它也强调了严谨的开发实践的重要性——在工作树中隔离变更,并且*始终*在提交代码前运行测试,这些都是通过代价高昂的合并错误学到的教训。最终,Zabriskie 现在在所有三个平台上都拥有自动化的质量保证,展示了即使存在平台特定的障碍,AI 驱动测试的力量。

对不起。

这个工具可以将一个AI编码代理转变为一个自主研究者,能够运行数十个实验来优化代码或系统。只需提供一个`researcher.md`文件和代码库,该代理就会设计、执行和分析实验——自动提交成功的更改并撤销失败的更改。 示例展示了延迟降低,成功地用KD树替换了缓慢的邻居搜索,在30多次实验后,p99延迟从142毫秒降低到89毫秒。 这种“自动研究”不仅限于机器学习;它适用于API性能、测试速度、包大小和算法调整等领域。该代理管理一个专门的`.lab/`目录来跟踪实验历史记录,与主git仓库分离,并利用“Yggdrasil”来持久化项目上下文的记忆。它被设计成一个自我改进、不知疲倦的研究者,用于任何可衡量的目标。

对不起。

## 个人计算的失落艺术 本文反思了计算潜力与其现状之间日益增长的脱节。作者哀叹了“为了乐趣而编程”的丧失,那时软件可以是短暂的和实验性的,纯粹为了个人探索而存在——一个代码的“肥皂泡”。 如今,编程似乎被专业标准和工业工具所主导,模糊了业余爱好者和专业人士之间的界限。虽然更容易获得强大的工具*理应*是赋权的,但它却导致了一种约束感,这种感觉是由“最佳实践”和持续的监控所驱动的。作者将此与艺术领域形成对比,在艺术领域,业余和专业设备及经验之间仍然存在清晰的区别。 他们提倡为玩乐的,甚至是“糟糕的”代码争取空间,拥抱元编程等技术用于个人项目——为即时享受而构建的代码,而非长期维护。这并非要放弃质量,而是要优先考虑一套不同的价值观:自由、实验和创造的乐趣。最终,作者担心未来技术只会服务于消费,这与对自动化以及保持与创造力和目标联系的担忧相呼应。

对不起。

这篇文章中没有什么值得引用的内容,但我想强调三点。首先,当你访问该页面时会看到:一个通知弹窗、一个遮挡文章的邮件订阅弹窗,以及一个带有至少五个可见广告的半透明背景。欢迎垫。其次,一旦你通过“欢迎垫”:是的,五个广告、一个标题和一个副标题。一点点文章。第三,这个网页初始加载时高达37MB。但这还不是最糟糕的部分。在我开始写这篇文章的五分钟里,网站已经下载了近半吉字节的新广告。带宽盛宴。我们很幸运拥有许多优秀的RSS阅读器,可以摆脱这些无意义的东西。

更多

联系我们 contact @ memedata.com