每日HackerNews RSS

## Sherlock:LLM API 流量与 Token 使用情况检查器 Sherlock 是一款用于监控和优化您与大型语言模型 (LLM) 交互的工具。它充当透明代理,拦截 Claude 等 LLM API 的 HTTPS 流量,并在终端仪表盘中显示实时 Token 使用情况。 **主要特性:** * **Token 追踪:** 监控每个请求的 Token 消耗。 * **上下文窗口监控:** 通过彩色编码的油表可视化累积 Token 使用量。 * **Prompt 调试:** 自动以 Markdown 和 JSON 格式保存 Prompt。 * **零代码集成:** 通过代理环境变量与现有工具配合使用。 **安装与使用:** 1. 克隆仓库并在开发模式下安装 (`pip install -e .`)。需要 Python 3.10+ 和 Node.js 用于某些应用。 2. Sherlock 在首次运行时会引导您安装 mitmproxy CA 证书。 3. 使用 `sherlock run <您的 LLM 工具>` 或特定命令(如 `sherlock claude`)运行命令。 仪表盘提供 Token 使用量、请求日志和已保存 Prompt 的实时视图,帮助您理解和优化 LLM 成本和 Prompt。欢迎通过 Pull Request 贡献!

## Sherlock:用于LLM洞察的中间人代理 一种名为Sherlock的新工具允许用户检查LLM工具(如Claude Code和Gemini)与API之间的通信,揭示正在发送的确切提示,并实时跟踪token使用情况。Sherlock由jmuncor出于好奇心构建,作为“中间人”代理运行,捕获请求并将提示保存为Markdown和JSON格式。 虽然通过简单的CLI即可轻松使用,但有人担心该工具无条件禁用TLS验证,从而带来安全风险。创建者承认这一点,并正在探索安全改进,包括可能使用HTTP中继。用户也建议将Sherlock集成到现有的工具中,如mitmproxy,以提高信任度和功能。 该工具已被证明对调试昂贵的提示、优化上下文窗口使用以及理解LLM的行为很有用,一些用户正在使用Envoy Proxy和Docker等工具创建类似解决方案。开发者正在积极寻求反馈,并考虑诸如OpenTelemetry集成和改进的上下文窗口管理等功能。

找到5笔退款请求。已根据您的政策处理。 Sarah Chen:年度计划,使用14天—已批准并处理… Mike's Hardware:发票错误—已退款,已发送道歉… Alex Thompson:重复收费—已退款,已发送确认… TechStart Inc:使用45天,超出政策范围—已拒绝,已说明… Jordan Lee:产品问题—已应用部分信用额度…

## Kairos: AI实习生 - Hacker News讨论 Hacker News上的讨论围绕着**Kairos**展开,这是一家新服务,提供“AI实习生”来自动化任务。核心争论在于**将AI定义为“实习生”是否合适**,许多评论者认为这淡化了当前AI的局限性,并可能利用了传统实习中人才培养的概念。 多位用户指出,当前的AI更适合简单的、重复性的任务——“次级”工作,而不是复杂的解决问题。一位用户将其比作机器人“奴役”,并引用了“robot”一词的词源。 一位用户进行的详细测试表明,Kairos在执行看似简单的任务时遇到困难:识别罕见鸟类的目击报告。尽管访问了正确的网站,但AI未能找到最近的、确认的目击报告,突显了它目前无法有效利用现有信息。 Kairos背后的公司(bamitsmanas)积极参与讨论,承认了反馈并表示愿意改进他们的方案,可能通过缩小服务范围来实现。人们也对登陆页面的破坏性滚动行为以及演示需要分享电话号码一事表示担忧。

## 浏览器代码:网页编码代理 浏览器代码是一个浏览器扩展,它使 Claude(或类似代理)能够像操作文件系统一样与网页进行交互和修改。它将每个网站呈现为一个虚拟文件系统——`page.html` 代表 DOM,`console.log` 用于输出,目录用于脚本和样式——允许代理生成、编辑和管理用户脚本。 这些脚本使用浏览器的用户脚本 API(Chrome 120+ 和 Firefox)保存,并在匹配的 URL 上自动运行,甚至包括动态路由(例如 `/products/[id]`)。一个关键特性是版本控制,防止基于过时的 DOM 状态进行编辑。 该扩展以两种模式运行:**计划模式**(只读探索和规划)和 **执行模式**(脚本执行和 DOM 修改,在用户批准后)。它提供双向用户脚本同步到本地文件系统(Chrome)或导出功能(Firefox)。 代理使用 `Read`、`Edit`、`Write`、`Glob` 和 `Bash` 等工具来操作虚拟文件系统。它通过用户脚本 API 绕过内容安全策略 (CSP) 限制,从而能够在 LinkedIn 等网站上执行脚本。

## 用户脚本的游标:一个基于浏览器的编码代理 一位 Hacker News 的开发者分享了“游标”,这是一个实验性的浏览器扩展,它将一个编码代理(如 Claude Code/Cursor)直接嵌入到浏览器中。游标不再手动使用 JavaScript 在控制台中编辑 DOM,而是将网页视为构建在浏览器本地存储之上的虚拟文件系统中的文件。 该代理可以生成和维护用户脚本和 CSS,利用工具来读取/编辑文件、grep 内容,并通过模拟的 bash 环境执行 JS 代码——镜像了这些模型经常训练的 RL 沙箱。目前与 Opus 4.5 测试,已被证明对诸如数据提取到 CSV 等任务有用。 虽然 Chrome Web Store 的提交正在等待处理,但开发者出于信任原因优先考虑基于源代码的构建,因为该扩展具有广泛的权限。讨论强调了与其他模型(如 Gemini Flash)的潜在集成,以及与类似项目(如 QuillMonkey 和 RobotMonkey)的比较,强调了人们对这种网络脚本编写方法的日益增长的兴趣。

## Trinity-Large:开源AI新前沿 经过两个月的密集开发,团队发布了Trinity-Large,一个400B参数的稀疏混合专家(MoE)模型,以及两个附加变体:Trinity-Large-Base(真正的基础模型)和Trinity-Large-Preview(即用型聊天模型)。该项目耗资约2000万美元,代表着在可访问、高性能AI方面迈出了重要一步。 Trinity-Large拥有独特的架构,具有高稀疏性(1.56%的激活参数),能够实现更快、更高效的训练和推理——比同类模型快大约2-3倍。它在17T个策划数据上进行训练,在数学、编码和推理等领域实现了前沿水平的性能,匹配或超越了现有的开源模型。 发布的*Preview*版本优先考虑在创意任务和代理应用中的实用性,而*Base*模型则为研究人员提供了一个干净的检查点,用于研究预训练的影响。团队利用了基于动量的专家负载均衡和z-loss等创新技术来稳定训练。Trinity-Large-Preview目前在OpenRouter上免费提供,计划进行完全发布和进一步改进。此次发布旨在赋予开源社区一个强大、可拥有且处于前沿水平的模型。

## Trinity Large:一种新的开源AI模型 Arcee.ai 发布了 Trinity Large,一个400B参数的稀疏混合专家(MoE)模型,训练耗时33天,成本约为2000万美元。该模型性能接近QWEN和Deepseek,尽管每个token只使用13B激活参数。 讨论的重点在于训练方法的权衡。虽然更大的模型通常需要更多资源,但Trinity Large优先考虑每参数的性能,可能使其在推理方面更有效率。然而,一些人认为由于激活参数数量和总token数量较低(17T vs 20-30T+),它与GLM和Qwen等竞争对手相比训练不足。 用户对拥有一个用于研究的“真正的基础”模型以及将其提炼成其他架构的潜力感到兴奋。该模型以Apache-2.0许可提供权重,但数据集不开放。一个关键问题是Arcee.ai计划如何将其开源模型的商业化。已经提供量化版本,以便更轻松地本地使用。

## 构建人工智能体验:以人为本的旅行图像方法 挑战:如何将用户自由形式的旅行查询(例如“sfo-jfk”)转化为旅行规划应用程序(Stardrift)中精美且相关的图像? 仅仅通过人工智能生成图像被证明质量低且成本高昂,而谷歌搜索则存在版权问题风险。 解决方案结合了大型语言模型、传统软件工程,以及至关重要的*人工策划*。 系统分为三个步骤:首先,大型语言模型识别查询中的“地点”,并为每个地点定义名称和类型(城市、地区、国家)。 其次,数据库将这些“地点”映射到从Unsplash获取的策划照片。 最后,软件检索适当的图像,即使对于未识别的地点,也会使用地理定位来查找最近的已映射地点。 填充数据库是一个手动但令人愉悦的过程。 虽然该系统并非完美——存在差距,并且图像选择反映了个人品味——但它展示了一个强大的原则:利用人工智能的优势,并辅以人类专业知识。 这种方法可以产生更精致、更“品味”的人工智能体验,避免完全依赖自动化解决方案的陷阱。 该系统还包括缺失地点提醒,允许通过手动补全进行持续改进。

## 黑客新闻讨论摘要:AI 与旅行照片选择 最近黑客新闻上出现了一场关于一篇文章的讨论,该文章详细介绍了一个系统,可以将旅行查询(例如“sfo-jfk”)转化为相关的照片。作者使用 LLM(具体为 Haiku)来解释查询并从精选数据库中选择图像——**这些图像*不是* AI 生成的**,这是线程中的争议点。 用户们争论了针对这项任务,本地模型与云端模型的实用性,许多人同意,尽管有成本,利用云 API 目前效率更高。有人对 Unsplash 关于大规模图像使用的服务条款表示担忧。 一些评论员批评最初的黑客新闻标题具有误导性,促使版主 'dang' 进行了更正。 还有关于使用 AI 辅助图像选择进行旅行的伦理影响的讨论,一些人认为这会产生对目的地不切实际的呈现。 另一些人强调了 AI 可以*辅助*创意过程,而不是取代它们,设想用于精确图像操作的工具。

## JFMM.net:改进大型手册的搜索 作者在海军服役期间,对3470页《联合舰队维护手册》(JFMM)缓慢而繁琐的搜索过程感到沮丧,因此构建了[JFMM.net](https://jfmm.net/)——一个语义搜索引擎,旨在改善对这些关键信息的访问。传统的文本搜索效果不佳,需要精确的词语匹配,并且在政府笔记本电脑上每次查询需要超过一分钟。 最初的版本使用了向量相似性搜索,使用`nomic-embed-text-v1.5`嵌入文本块,并将其存储在云托管的Postgres数据库中,使用`PGVector`。虽然功能可用,但成本很高。重写侧重于经济性和相关性。 作者切换到带有`sqlite-vec`扩展的轻量级SQLite数据库,从而能够在本地嵌入整个手册并部署更小的容器。量化,将模型精度降低到8位,进一步减少了RAM的使用。为了提高结果准确性,添加了一个重排序模型(`BAAI/bge-reranker-v2-m3`),尽管这会略微增加延迟。实施了HATEOAS分页方法,利用URL管理状态并提高效率。 结果是一个更相关、更便宜、更方便开发者的搜索工具,现在每月成本低于2美元,但由于重排序,查询速度略有下降。

这次黑客新闻的讨论集中在优化语义搜索,特别是在联合舰队维护手册 (JFMM.net) 的背景下。发帖者详细介绍了他们搜索系统的调整,评论者分享了实践经验和技术。 主要收获包括令人惊讶的简单方法——例如分类嵌入和混合多个模型的分数——通常优于付费解决方案。利用特定领域的词汇表和缩略词映射被强调为重要的提升因素。 一位评论者详细介绍了使用 ASP.NET、Postgres/pgvector 和 OpenAI 嵌入构建巴哈马关税信息的 RAG(检索增强生成)系统。他们发现 SQLite 是较小数据集的可行替代方案,在 Postgres 不使用索引的情况下。双方都强调构建有用搜索系统的迭代性质以及分享解决常见痛点的“战场笔记”的价值。

## 距离最近的一次:末日钟内部 《原子科学家公报》在2026年1月将末日钟设定为距离午夜85秒——这是它距离象征性全球灾难最近的一次。这种紧迫性促使诺贝尔奖获得者和核专家在芝加哥大学举行会议,讨论减少生存威胁的策略。 该钟始于1947年,反映了理事会对核武器、气候变化、颠覆性技术和生物威胁等危险的评估。设定时间是一个复杂的过程,涉及分析、辩论,最终由来自不同领域的科学家和政策专家投票决定。尽管因其不精确性而受到批评,但该钟仍然是一个严峻的警告和行动呼吁。 受新军备竞赛、全球合作的侵蚀以及人工智能在战争中的崛起等问题的驱动,这次会议旨在发表一份声明,敦促世界领导人缓和局势。这一过程凸显了科学专业知识与人类行为不可预测性之间的紧张关系,承认即使了解风险,防止灾难也需要集体行动和持续寻求解决方案——正如一位专家所说,感觉就像“把海星扔回大海”。

## 黑客新闻上关于末日钟的讨论 黑客新闻上正在讨论由原子科学家公报设定的末日钟的相关性和准确性。许多评论者表示怀疑,认为它已成为制造恐慌的工具,而非对生存威胁的真正科学评估。 一些用户认为,末日钟目前的设定(距离午夜85秒)与实际风险不成比例,尤其与冷战时期相比。担忧集中在全球领导人的素质和拥有核能力的国家数量增加,但许多人认为当前危险并不匹配过去的紧张局势。 另一些人批评末日钟受到当前政治焦虑的影响过大,并通过频繁调整而失去意义。一些人指出环境问题和潜在的大规模移民是长期威胁,而另一些人则强调当前世界秩序的脆弱性。一个关键点是,末日钟最初是一个艺术项目——一种表演,而不是一项严格的科学事业。最终,讨论的问题是末日钟是否准确反映了全球风险,还是仅仅放大了现有的焦虑。

超出请求频率限制

## 赫尔佐格的企鹅与存在主义漫游:黑客新闻摘要 最近黑客新闻上出现了一场关于维尔纳·赫尔佐格纪录片中一只企鹅似乎走向死亡的南极片段的讨论。该片段在网上再次出现,引发了关于其含义的争论——特别是,它是否例证了虚无主义。 评论者很快将讨论扩展到更广泛的哲学领域,讨论了尼采的“权力意志”以及在毁灭面前强加意义的驱动力。另一些人则认为,将虚无主义归因于企鹅是一种拟人化,认为它仅仅是迷失方向或试图导航的困惑尝试。 对话还涉及赫尔佐格的纪录片风格,一些人质疑他在另一部电影《泰加人民:一年》中的编辑选择以及他描绘的准确性。一个反复出现的主题是个体“硬汉”探索行为与生存和物种繁衍的实际现实之间的紧张关系。一些人将企鹅设想成可能建立新殖民地的先驱,而另一些人则强调这种成功的可能性很小,强调进化变化所需的无数失败尝试。最终,这场讨论强调了人类将意义投射到动物行为上的倾向以及解释自然现象的复杂性。

## 代理编码与安全风险:摘要 Formal Labs 利用像 Claude Code 这样的代理编码工具来提高软件开发速度,但认识到授予这些工具广泛权限会带来固有的安全风险。允许文件编辑和常见的开发命令(如 `go test`、`go build`、`eslint`、`make`、`pnpm run`)可能会无意中赋予代理在开发者机器上执行*任何*命令的能力。 这是因为许多开发者工具被设计为执行任意代码——单元测试可以运行脚本,构建过程利用代码生成,而代码检查器接受可执行配置。即使是看似安全的命令,如 `go build`,也带有允许执行其他程序的标志。文件监听器(例如 Next.js 开发中使用的)也存在另一个漏洞点。 虽然命令白名单*可能*会降低恶意命令执行的可能性,但这是一种复杂且不可靠的方法。核心问题是开发者工具的构建并未考虑到潜在的恶意代码提供者。 Formal Labs 提倡**沙箱化**作为更可靠的解决方案。在受限环境中运行代理工具可以限制其潜在影响,无论它们尝试执行什么命令。Cursor 和 Claude Code 等工具开始集成沙箱化功能,为安全的代理开发提供了一条有希望的途径。

## 有限访问的幻觉 这个Hacker News讨论的核心在于,试图通过允许列表指定命令(如`vim`或`sudo`)来授予有限的root权限是徒劳的。主要论点是,大多数命令,即使看似无害的命令,都可以被利用来获取完全的root权限——这一概念在[GTFOBins](https://gtfobins.org/)上有充分记录。 用户分享了经验,即出于安全或监管原因限制访问的尝试最终都失败了,因为即使是有限的命令也蕴含着内在的力量。访问控制列表(ACL)等解决方案被提及,但被认为过于复杂且经常被忽视。有人建议使用挂载命名空间和叠层文件系统进行沙箱化,或利用Bazel等构建系统进行测试隔离,但这些方法并非万无一失。 对话还涉及了AI代理需要访问系统带来的风险,以及安全地允许它们在线访问的挑战。一个反复出现的主题是,限制*如何*做某事通常不如控制*做什么*更有效,并且假设代码(甚至测试代码)本质上是安全的是一种危险的谬误。

## 为什么阅读?为过去辩护 作者认为,阅读越来越被视为一项任务,而非智力追求——这与它在历史上的重要性相去甚远(甚至决定了是否能免受惩罚!)。但如果我们超越了为了实用技能而阅读,*为什么*要阅读文学、历史或哲学?作者认为,不是为了娱乐,因为现代娱乐方式远胜于书籍。 这些学科的核心目的是通过不同的经历来理解人类的处境。然而,现代作者往往缺乏广阔的人生经验,无法提供真正独特的视角,因为他们的思想受到同质化教育体系的影响。 相反,作者提倡阅读过去的著作。像色诺芬和贝尔纳尔·迪亚斯·德尔·卡斯蒂略这样的人物度过了非凡的一生,提供了当代学者无法提供的见解。关键在于优先阅读较早的作品——目标是让一半的阅读内容早于二战,其中一半早于美国革命,再一半早于罗马帝国衰落——以真正拓宽对人类的理解。

更多

联系我们 contact @ memedata.com