每日HackerNews RSS

## 编码代理成本:缓存读取是隐藏的开销 随着编码代理变得越来越复杂,理解其成本结构至关重要。一个关键发现是,**缓存读取迅速成为主要开销**,通常在**27,500个token**左右时,费用会占到总成本的一半——到对话结束时,甚至高达总成本的87%。 这是因为编码代理在每次交互时都会将整个对话历史记录发送给LLM。虽然初始输入和输出token很重要,但从缓存中*读取*这段历史记录的成本会随着对话长度和LLM调用的次数呈二次方增长。 对exe.dev上的250个对话的分析一致地显示了这一趋势。成本不仅基于token数量,还基于*LLM调用的次数*——调用次数越多,缓存读取次数就越多。以Anthropic的定价为例,缓存读取可能在**20,000个token**时就成为主要成本。 缓解策略包括限制大型工具的输出(避免重复读取整个文件)以及考虑重启对话以避免过高的缓存成本,这类似于开发者经常从git仓库开始全新项目。最终,成本管理、上下文和代理编排可能从根本上是相关的。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 昂贵的二次方:LLM 代理成本曲线 (exe.dev) 5 分,luu 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

一份新近发现的8世纪编年史,被称为713年马龙尼特编年史,为从晚期古至今伊斯兰崛起这一动荡的过渡时期提供了宝贵的见解。这份手稿在埃及圣凯瑟琳修道院被发现,最初是用叙利亚语写成,后来被翻译成阿拉伯语,它提供了最早的幸存的基督教文献之一,记录了7世纪的阿拉伯-伊斯兰扩张和阿拉伯-拜占庭战争。 艾德里安·皮尔蒂亚通过数字化手稿发现了这份编年史,它详细记录了从亚当到作者同时代历史,其中最重要的部分集中在拜占庭-萨珊战争、伊斯兰教的兴起和早期的阿拉伯征服。值得注意的是,它显示出对广阔地理区域事件的了解,从叙利亚到巴尔干半岛。 学者们认为,这份此前未知的文本可能与后世历史学家使用的8世纪佚失文献有关,为重建早期中世纪叙利亚史学和恢复这一关键时代的重要基督教视角提供了一块关键的拼图。目前正在进行完整翻译。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 在西奈发现了一部1300年的世界编年史 (heritagedaily.com) 5 分,由 telotortium 1小时前发布 | 隐藏 | 过去的 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

请启用 JavaScript 并禁用任何广告拦截器。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 可能找到失落的苏联月球着陆器 (nytimes.com) 11点 由 Brajeshwar 2小时前 | 隐藏 | 过去 | 收藏 | 1条评论 帮助 moebrowne 2小时前 [–] https://archive.is/pqiyD 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

要使用 Mastodon 网页应用程序,请启用 JavaScript。或者,尝试为您的平台使用 Mastodon 的原生应用程序。

## LLM 与常识:洗车困境 最近在 Hacker News 上的讨论强调了大型语言模型 (LLM) 的一个有趣缺陷——回答一个看似简单的问题:走 50 米还是开车去洗车?许多模型,包括 OpenAI 的 GPT 5.2,最初建议*步行*,似乎假定汽车*已经在*洗车场。 然而,澄清提示词(“我的车在家……”)通常可以纠正答案。其他模型,如 Gemini 3、Claude Opus 和 Grok,通常一开始就能正确回答,认识到需要*开车*去洗车。 这场辩论表明,LLM 在“常识”推理方面存在困难,需要明确的上下文。一些人认为这源于缺乏“对现实世界的理解”,或者由于训练数据而倾向于谨慎、不明确的回答。另一些人则指出,模型依赖于模式识别而不是真正的思考,以及强化学习来自人类反馈 (RLHF) 可能会抑制强烈的观点。 最终,这次交流强调了仔细提示的重要性,并凸显了当前 LLM 的局限性,即使是最先进的 LLM,在面临需要基本情境感知能力的任务时也是如此。

## 使用AI代理构建SQLite:摘要 2026年2月,Kian Kyars成功地指示三个大型语言模型——Claude、Codex和Gemini——使用Rust构建一个类似SQLite的数据库引擎。该项目在大约三天和154次提交中完成了约19,000行代码,包括解析器、计划器、火山执行器、B+树、WAL、事务、索引和聚合等功能。重要的是,282个单元测试全部通过,验证了实现。 该过程模拟了分布式系统原理,强调通过Git、锁文件和严格测试进行协调。代理在一个循环中运行:声明任务、以SQLite作为预言机进行实现、更新共享文档并推送更改。协调开销(锁管理)占了超过一半的提交。 成功的关键在于预言机式验证、高测试频率和强大的模块边界,从而最大限度地减少了合并冲突。一个“合并器”代理(Gemini)旨在减少重复,但*在运行期间*未能有效利用。该实验强调了严格的任务边界、共享文档作为运行时组件以及测试作为利用并行AI代理时的重要反熵力量。该项目的仓库和脚本可公开获取以供复制。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 使用小型集群构建 SQLite (kiankyars.github.io) 17 分,kyars 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 希望有人觉得这篇关于我并行编码代理经验的文章有趣。帮助 scirob 1 分钟前 | 下一个 [–] 他们最终通过了所有单元测试吗?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

罗伯特·沃尔克(Robert Wolke)的“美食101”专栏解释了铝箔的起源以及亮面和暗面的区别。最初被称为“锡箔”,因为19世纪时它是由锡制成的(灵感来自爱迪生的留声机),现在几乎完全由铝制成。 两种不同表面是制造过程的结果。铝在钢辊之间轧制;最后的工序使用两张面对面压制的薄片。外表面因与抛光辊接触而变得光滑,而内表面则相互挤压,形成哑光表面。 然而,沃尔克澄清说,**使用哪一面烹饪并不重要**——性能相同。有趣的是,铝是地球地壳中最丰富的金属,尽管人们普遍认为,锡箔帽并不能阻挡无线电信号!

一个由一篇博文引发的黑客新闻讨论询问为什么铝箔一面是亮的,一面是哑光的。最初关于铝箔不同一面的问题很快就跑题了。 用户们戏谑地争论“铝”的正确拼写(与“铝”相对),引用了国际标准,甚至开玩笑说在月球上会听力受损。关于亮面反射更多热量用于烹饪的常见误解被驳斥——两面具有基本相同的热传递特性,而蒸汽保留更为重要。 最初对两种面的解释在于制造过程:铝箔是通过将两层铝片面对面地一起轧制而成的。对话还包括一个关于在铝箔轧制过程中,什么构成“三明治”的幽默辩论。

## Floe:一个可以回答关于自身问题的数据库 Floe 旨在成为一个“神奇”的数据库,轻松处理复杂的 SQL 查询。然而,认识到即使是最好的引擎也需要帮助,Floe 引入了一种独特的方法:使数据库本身可查询。 不同于依赖专门的 UX 工具或繁琐的日志,Floe 提供了一套全面的**系统视图(位于 `sys` 模式下)**。这些视图暴露了数据库内*所有内容*的可查询数据模型——表、函数、查询、会话,甚至内部统计信息。这允许用户使用 SQL 直接提出诸如“为什么我的查询速度慢?”或“哪些表增长最快?”之类的问题。 这种方法提供了强大的自动化和灵活性,让用户能够以熟悉的语言探索数据库,并回答 Floe 团队甚至未曾预料的问题。Floe 还支持通过 INFORMATION_SCHEMA 和 ADBC 进行传统的元数据访问,以及 PostgreSQL 线路协议,确保广泛的兼容性。 最终,Floe 的目标是成为一个透明且可诊断的数据库,赋予经验丰富的用户和新手以理解和优化其性能的工具。团队欢迎反馈,以便他们继续开发这个创新系统。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 数据库应该包含自己的元数据 – 在任何地方使用 SQL (floedb.ai) 9 分,由 matheusalmeida 2 小时前发布 | 隐藏 | 过去的 | 收藏 | 2 条评论 帮助 galaxyLogic 7 分钟前 | 下一个 [–] 这不就像许多关系数据库一样吗,你可以查询它们关于其中的表的信息? umairnadeem123 6 分钟前 | 上一个 [–] 我认为关键的区别在于将该元数据作为一等公民,并且可以跨整个系统进行查询(血缘关系、统计信息、访问模式),而不仅仅是 information_schema / catalog 表。大多数 RDBMS 暴露模式元数据,但不会暴露像哪些查询生成哪些行、新鲜度或成本/延迟信号,除非你通过追踪将其附加到系统中。好奇的是 floe 是将元数据视为数据(版本化、可连接)还是作为可观察性侧车? 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 排版引擎基准测试:速度 vs. 控制 speedata Publisher (sp) 的开发者进行了一项基准测试,将其性能与 Typst、pdflatex、LuaLaTeX、WeasyPrint 和 Apache FOP 进行比较,任务是邮件合并——用数据填充信件模板以生成 PDF。 **测试结果:** 对于单页文档,sp 和 Typst 的速度相当(约 100 毫秒),明显快于其他引擎。 然而,对于 500 页文档,**Typst 显著优于所有其他引擎**,仅用时 157 毫秒——大约比 sp 快 28 倍。 这种速度得益于 Typst 更简单的断行算法。 **但速度并非一切。** 虽然 Typst 在快速处理方面表现出色,但 sp(和 pdflatex)使用 Knuth & Plass 算法实现更好的文本对齐,避免了 Typst 输出中存在的不均匀间距和断字问题。 **关键区别在于复杂布局。** 基准测试显示 sp 在 *自适应布局* 方面具有优势——自动调整内容以适应可用空间,这对于产品目录等任务至关重要。 Typst 在这方面遇到困难,需要手动计算并且缺乏内置的动态页面填充功能。 其他工具表现更差。 **结论:** 对于邮件合并等简单任务,**Typst 在速度方面是明显的赢家。** 然而,当布局需要智能内容调整和精确排版时,**sp 提供了其他引擎所不具备的功能**,即使这意味着牺牲一些处理速度。 该基准测试强调,“最佳”工具很大程度上取决于排版任务的复杂程度。 您可以在 [GitHub](链接未在文本中提供) 上找到完整的基准测试设置。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 基准测试自动排版系统 (speedata.de) 4 分,patrickg 发表于 2 小时前 | 隐藏 | 过去的 | 收藏 | 1 条评论 帮助 patrickg 发表于 2 小时前 [–] 我基准测试了六种不同的排版系统,Typst 绝对是最快的。这篇文章描述了为什么 speedata Publisher 仍然是我制作产品目录的选择。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

跳过主内容 世界 商业 法律 市场 Breakingviews 更多 委内瑞拉石油的沉重现实 委内瑞拉的石油储量巨大,但并非所有原油都是一样的 作者:Kripa Jayaram、Mayank Munjal 和 Anurag Rao 发表于 2026 年 2 月 5 日 上午 6:00 EST 使用按键或点击继续 点击继续

这次黑客新闻的讨论围绕着路透社关于委内瑞拉石油工业的一篇文章。核心论点并非石油稀缺,而是需求转变和政治运作。 一位评论员认为,我们已经过了“石油峰值”,并非由于枯竭,而是由于替代品的出现导致的需求减少,并且石油定价更多地受到市场操纵(如欧佩克和油砂开采)而非供应量的驱动。他们认为委内瑞拉的问题归因于更广泛的政治和经济因素,而不仅仅是美国干预。 另一位评论员将委内瑞拉的局势与前总统特朗普控制全球能源市场的尝试联系起来,将其视为在世界摆脱美元依赖的情况下,维持美元主导地位的绝望努力。他们预测美元长期衰落,尽管短期内存在政治操作。 本质上,这次对话表明委内瑞拉的石油困境是全球能源和货币动态发生更大转变的症状。

启用 JavaScript 和 Cookie 以继续。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 职位发布会持续多久? (corvi.careers) 6点 由 sp1982 1小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

更多

联系我们 contact @ memedata.com