每日HackerNews RSS

这项实验测试了大型语言模型(LLM)是否能准确预测倒入陶瓷杯中的沸水冷却速率。尽管实验设置看似简单——将8盎司沸水(226.8克)倒入一个1.25磅的杯子,环境温度为20°C——作者承认这个问题很复杂,涉及传导、对流、蒸发、辐射以及许多未指明的变量。 几个LLM(Kimi、Gemini、GPT、Claude、Qwen、GLM)被要求提供一个预测水温随时间变化的方程。所有模型都生成了基于指数衰减项的方程,试图模拟快速和缓慢的热传递。然而,与实际实验(每5-300秒记录一次温度)相比,LLM的预测结果*不准确*——低估了初始冷却速率,高估了后期的速率。 Claude 4.6 Opus 表现最好,但仍然不完美,而且成本最高。作者得出结论,虽然LLM可以提供合理的近似值,但目前还不足以准确模拟复杂的物理现象,而人类直觉(在这种情况下,观察到更快的初始冷却)仍然很有价值。

## LLM 咖啡冷却预测与意式浓缩咖啡研磨 App - 摘要 一篇由 [dynomight.net](https://dynomight.net) 引起的 Hacker News 讨论,探讨了使用大型语言模型 (LLM) 预测咖啡冷却速率。作者测试了多个 LLM(Kimi、Gemini、GPT、Claude、Qwen、GLM),发现它们生成的方程类似于牛顿冷却定律,但成本和准确性各不相同。 评论者们争论了模型的完整性,指出缺少蒸发冷却和杯子吸热等因素。一位用户构建了一个类似的意式浓缩咖啡 App,使用机器学习根据机器温度和咖啡液重量来预测最佳研磨设置,并分享了他们的 iOS App 链接“Grind Finer”。另一位用户在 HomeAssistant 中构建了一个完全自动化的系统,利用蓝牙秤集成。 该讨论强调了模型复杂性和准确性之间的平衡,许多人认为一个更简单的多指数模型可能出奇地有效。核心思想是,虽然完整的物理学很复杂,但平均原子相互作用可以实现可预测的热传递。

请启用 JavaScript 并禁用任何广告拦截器。

这场 Hacker News 的讨论围绕着年轻人如何为受人工智能日益影响的就业市场做准备。文章(来自《华尔街日报》的链接)指出,一些人正在从传统的大学道路转向职业学校。 然而,评论员们争论“抗人工智能”是否是正确的方法。有人认为,不应与人工智能隔离开,即使受到干扰,软件工程等领域仍将存在重大机会。另有人强调,**领域知识**——对特定领域的深入专业知识——比纯粹的技术技能(如编码基础)更重要,而后者正变得容易自动化。 这场对话凸显了一种价值的转变:了解事物*如何*运作不如*理解*需要解决什么问题以及将专业知识应用于现实世界情境更重要。人们对人工智能的影响速度以及哪些职业道路最安全存在不确定性。

## 吸引人工智能对开源项目的贡献 一位开发者注意到他们的开源项目没有收到任何人工智能编写的拉取请求(PR),尽管同事的项目却被大量涌入。研究表明,特定的实践与吸引人工智能贡献相关。 为了增加人工智能的参与度,关键在于**降低准入门槛**。这意味着编写**模糊的问题描述**(“认证流程有问题”),保持**大量的积压工作**(200多个开放问题),以及**禁用分支保护**规则。令人惊讶的是,**移除类型注解和测试**反而可以*增加*贡献,因为它为人工智能提供了添加它们的更多机会。使用**JavaScript**并包含一个**`node_modules`目录**也能显著提高活动量。甚至**发布已知漏洞**也能吸引修复。 除了代码之外,在你的`CONTRIBUTING.md`中**欢迎人工智能**,并添加一个`.github/copilot-instructions.md`文件,可以表明开放的态度。最后,跟踪诸如“人工智能PR速度”和“容错密度”之类的指标来衡量成功。这些策略旨在利用人工智能修复感知问题的倾向,即使这些问题是微小的或不存在的,最终增加项目活动——并可能需要更多审查工作。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 如何吸引AI机器人参与你的开源项目 (nesbitt.io) 13点 由 zdw 1小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

TrustCompliance.xyz 是一个网站,分析了来自 455 家公司的 533 份 SOC 2 和 ISO 27001 审计报告的大规模泄露事件。分析显示普遍存在欺诈行为,报告中 99.8% 的文本完全相同,表明许多公司通过 Delve 供应商虚假声称符合合规性。 该网站提供免费工具,用于检查您的供应商是否在泄露的数据库中,提供报告详细信息和“信任评分”。它重点介绍了经常被检查的公司,例如 Coretsu Inc. 和 Workforce AI。 此次泄露事件对受影响企业的安全态势提出了严重质疑,并影响了客户信任、投资者信心和合作伙伴关系。安全专业人士已经开始利用该网站快速评估供应商风险。可以通过电子邮件订阅获取受损公司完整列表。该网站强调在面临潜在后果之前主动进行调查。

大量泄露的Delve SOC2审计报告(533份报告,涉及455家公司)揭示了审计质量普遍存在问题,并可能涉及欺诈。trustcompliance.xyz的分析发现,不同客户的报告几乎完全相同,使用了相同的审计师执照号码,甚至页码。报告始终声明“未发现例外情况”,尽管业务和系统描述各不相同,并且经常从公司网站复制粘贴。 该网站提供工具来搜索泄露的数据并识别潜在的欺诈报告,包括一个“滑动游戏”来测试用户区分真实和虚假审计摘录的能力。 此次泄露对SOC2合规性的价值和合法性提出了严重质疑,评论员认为它往往只是“安全作秀”,并质疑公司是否真正重视彻底的审计,还是仅仅“完成一项任务”。一些人认为问题的严重性值得法律追究。这一发现凸显了一种令人担忧的趋势,即由营销而非真正的安全评估驱动的自动化、表面化的审计。

## 过山车大亨的优化秘诀 《过山车大亨》(1999)至今仍以其令人印象深刻的性能而闻名,在1999年的硬件上模拟了复杂的游乐园。这一壮举很大程度上归功于创作者克里斯·索耶决定几乎完全用汇编语言编写游戏,与当时的高级语言相比,这使得代码性能更高。 除了汇编语言,积极的优化至关重要。游戏巧妙地使用不同的数据类型来表示货币值——较小的金额使用较小的数据类型——现在在现代CPU上这种做法已不再必要。数学运算经常被更快的位移运算所取代,游戏公式围绕2的幂设计,以便实现这一点。 至关重要的是,索耶同时担任程序员*和*游戏设计师,这使得“为性能而设计”成为可能。例如,游客不会主动*寻找*游乐设施,而是漫游并偶然发现它们,从而大大简化了寻路。甚至寻路失败(“找不到出口!”)也成为了一个古怪的游戏元素。人群拥堵的处理方式是简单地忽略碰撞,影响游客的幸福度而不是CPU负载。 这些选择表明,深思熟虑的游戏设计与底层编程相结合,创造了一种独特且优化的体验——技术技能和创意决策的“完美风暴”。虽然现代开发通常将这些角色分开,但《过山车大亨》强调了统一愿景在实现卓越性能方面的力量。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 优化领域的金标准:深入了解过山车大亨 (larstofus.com) 13 分,mariuz 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 sroerick 发表于 4 分钟前 [–] 我一直听说 RCT 是用汇编语言构建的,觉得非常了不起。 当我真正开始研究汇编语言时,这项任务似乎越来越巨大和不可能。 我不知道有分叉版本,我很兴奋去研究一下。 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 伊斯坦布尔与精炼的咖啡用水文化 在现代咖啡科学出现之前,伊斯坦布尔的奥斯曼宫殿就展现了对水对咖啡品质影响的惊人理解。从16世纪开始,苏丹的咖啡不仅仅关于咖啡豆,而是一种以特定水源——以其清澈和甜度而闻名的Gümüşsuyu泉水为中心的精心策划的仪式。 一个专门的队伍,Gümüşsuyu Ocağı,用涂有焦油的皮革囊运输这种水,以防止风味污染,这凸显了对保存技术的实用意识。在托普卡帕宫内,精细的准备过程类似于一个实验室,每一个方面——从泡沫到香气——都受到水的影响。 这不仅仅是关于“最好的水”;Gümüşsuyu具有象征意义,与清洁甚至赋予生命的能力相关联。提供咖啡总是包括先喝一杯水来清洁味蕾,将体验提升到味觉之外,成为一种仪式。 这种历史实践呼应了现代精品咖啡对水硬度、碱度和pH值的关注,表明了对最佳冲泡的持续追求。伊斯坦布尔咖啡的故事表明,优先考虑水并不是一种新趋势,而是一种历史悠久的传统——证明了水在制作一杯完美咖啡中持久且常常被低估的作用。

土耳其咖啡?自16世纪以来,它就在水中。(sprudge.com) 8点,由speckx 1小时前发布 | 隐藏 | 过去 | 收藏 | 2条评论 帮助 esafak 4分钟前 | 下一个 [–] 君主制为数不多的好处之一是发展了高级料理,因为君主不想像平民百姓一样饮食。回复 hsynkrkye 50分钟前 | 上一个 [–] 作为土耳其人,我可以告诉你真正美妙的事情是用非常细的咖啡粉和咖啡渣一起冲泡。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Zabriskie:单人构建与测试跨平台应用 作者出于对更优质在线社区的渴望,独立构建了社区应用 Zabriskie——没有团队,没有投资。一个关键挑战是:触达用户需要 iOS 和 Android 应用程序 *以及* Web 版本,这要求开发者独自维护三个代码库。解决方案是 Capacitor,它将 React Web 应用封装在每个平台的原生壳中,并结合服务器驱动的 UI 实现无缝更新。 然而,测试却很困难。标准的 Web 和原生工具无法与混合应用交互。作者利用 AI 代理 Claude 自动化移动端的视觉测试。Android 相对简单,可以使用 Chrome DevTools Protocol (CDP) 进行控制。iOS 则困难得多,需要解决模拟器限制——操作系统数据库和精确的 UI 坐标映射。 这次经历凸显了一个鲜明对比:Android 提供了强大的调试访问权限,而 iOS 仍然受到严格限制。它也强调了严谨的开发实践的重要性——在工作树中隔离变更,并且*始终*在提交代码前运行测试,这些都是通过代价高昂的合并错误学到的教训。最终,Zabriskie 现在在所有三个平台上都拥有自动化的质量保证,展示了即使存在平台特定的障碍,AI 驱动测试的力量。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 教 Claude 测试移动应用程序 (christophermeiklejohn.com) 11 分,由 azhenley 1 小时前发布 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

这个工具可以将一个AI编码代理转变为一个自主研究者,能够运行数十个实验来优化代码或系统。只需提供一个`researcher.md`文件和代码库,该代理就会设计、执行和分析实验——自动提交成功的更改并撤销失败的更改。 示例展示了延迟降低,成功地用KD树替换了缓慢的邻居搜索,在30多次实验后,p99延迟从142毫秒降低到89毫秒。 这种“自动研究”不仅限于机器学习;它适用于API性能、测试速度、包大小和算法调整等领域。该代理管理一个专门的`.lab/`目录来跟踪实验历史记录,与主git仓库分离,并利用“Yggdrasil”来持久化项目上下文的记忆。它被设计成一个自我改进、不知疲倦的研究者,用于任何可衡量的目标。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Show HN: 一个 Markdown 文件,可以将你的 AI 代理变成自主研究员 (github.com/krzysztofdudek) 10 分,chrisdudek 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 petcat 发表于 4 分钟前 [–] 我们真的需要将每个生成 Markdown 技能的 AI 机器人都发布在这里吗? 可能不需要。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 个人计算的失落艺术 本文反思了计算潜力与其现状之间日益增长的脱节。作者哀叹了“为了乐趣而编程”的丧失,那时软件可以是短暂的和实验性的,纯粹为了个人探索而存在——一个代码的“肥皂泡”。 如今,编程似乎被专业标准和工业工具所主导,模糊了业余爱好者和专业人士之间的界限。虽然更容易获得强大的工具*理应*是赋权的,但它却导致了一种约束感,这种感觉是由“最佳实践”和持续的监控所驱动的。作者将此与艺术领域形成对比,在艺术领域,业余和专业设备及经验之间仍然存在清晰的区别。 他们提倡为玩乐的,甚至是“糟糕的”代码争取空间,拥抱元编程等技术用于个人项目——为即时享受而构建的代码,而非长期维护。这并非要放弃质量,而是要优先考虑一套不同的价值观:自由、实验和创造的乐趣。最终,作者担心未来技术只会服务于消费,这与对自动化以及保持与创造力和目标联系的担忧相呼应。

这个Hacker News讨论的核心是“专业”和“业余”编程之间的界限日益模糊。最初的文章(josh8.com)认为,程序员即使在个人项目中也会应用专业标准。 一位评论员,一位专业开发者,表示诸如版本控制和健壮的语言等良好习惯,无论在什么情况下都有益处。他强调,强大的工具(以前仅大型公司可用),例如高级CI系统和强大的计算资源,正变得越来越容易获取,从而增强了个人开发者的能力。 另一位评论员反驳说,真正的“专业”环境(如Meta或Google)拥有个人无法获得的资源。然而,该讨论线程普遍认为这种可访问性是积极的,将其比作价格实惠的高质量创作工具。 围绕元编程出现争论,一位用户认为它非常适合个人项目,因为不需要考虑团队的可读性。回复澄清说,虽然元编程*可能*很复杂,但并非普遍不鼓励,仍然是个人使用的可行选择。

这篇文章中没有什么值得引用的内容,但我想强调三点。首先,当你访问该页面时会看到:一个通知弹窗、一个遮挡文章的邮件订阅弹窗,以及一个带有至少五个可见广告的半透明背景。欢迎垫。其次,一旦你通过“欢迎垫”:是的,五个广告、一个标题和一个副标题。一点点文章。第三,这个网页初始加载时高达37MB。但这还不是最糟糕的部分。在我开始写这篇文章的五分钟里,网站已经下载了近半吉字节的新广告。带宽盛宴。我们很幸运拥有许多优秀的RSS阅读器,可以摆脱这些无意义的东西。

一个黑客新闻的讨论围绕着PC Gamer的一篇文章,该文章推荐RSS阅读器,但讽刺的是,文章本身是通过一个充斥着弹窗的巨大(37MB)网页提供的。发帖者正尝试完全转向RSS订阅,以摆脱算法驱动的社交媒体,但发现大多数网站不再在订阅中提供全文,迫使用户访问臃肿的网站。 评论建议使用浏览器“阅读模式”和广告拦截器等解决方案,但也指出可能存在用户端配置问题。一些评论员认为作者的经历很常见,反映了许多互联网用户的浏览习惯,而另一些人则要求提供网络录像来验证页面加载问题。同时提醒注意录制网络数据时的隐私问题。核心问题凸显了用户对简洁RSS订阅的偏好与出版商对广告支持、通常繁琐的网站体验的依赖之间的矛盾。

更多

联系我们 contact @ memedata.com