## Sherlock:LLM API 流量与 Token 使用情况检查器
Sherlock 是一款用于监控和优化您与大型语言模型 (LLM) 交互的工具。它充当透明代理,拦截 Claude 等 LLM API 的 HTTPS 流量,并在终端仪表盘中显示实时 Token 使用情况。
**主要特性:**
* **Token 追踪:** 监控每个请求的 Token 消耗。
* **上下文窗口监控:** 通过彩色编码的油表可视化累积 Token 使用量。
* **Prompt 调试:** 自动以 Markdown 和 JSON 格式保存 Prompt。
* **零代码集成:** 通过代理环境变量与现有工具配合使用。
**安装与使用:**
1. 克隆仓库并在开发模式下安装 (`pip install -e .`)。需要 Python 3.10+ 和 Node.js 用于某些应用。
2. Sherlock 在首次运行时会引导您安装 mitmproxy CA 证书。
3. 使用 `sherlock run <您的 LLM 工具>` 或特定命令(如 `sherlock claude`)运行命令。
仪表盘提供 Token 使用量、请求日志和已保存 Prompt 的实时视图,帮助您理解和优化 LLM 成本和 Prompt。欢迎通过 Pull Request 贡献!
## Trinity-Large:开源AI新前沿
经过两个月的密集开发,团队发布了Trinity-Large,一个400B参数的稀疏混合专家(MoE)模型,以及两个附加变体:Trinity-Large-Base(真正的基础模型)和Trinity-Large-Preview(即用型聊天模型)。该项目耗资约2000万美元,代表着在可访问、高性能AI方面迈出了重要一步。
Trinity-Large拥有独特的架构,具有高稀疏性(1.56%的激活参数),能够实现更快、更高效的训练和推理——比同类模型快大约2-3倍。它在17T个策划数据上进行训练,在数学、编码和推理等领域实现了前沿水平的性能,匹配或超越了现有的开源模型。
发布的*Preview*版本优先考虑在创意任务和代理应用中的实用性,而*Base*模型则为研究人员提供了一个干净的检查点,用于研究预训练的影响。团队利用了基于动量的专家负载均衡和z-loss等创新技术来稳定训练。Trinity-Large-Preview目前在OpenRouter上免费提供,计划进行完全发布和进一步改进。此次发布旨在赋予开源社区一个强大、可拥有且处于前沿水平的模型。
## 构建人工智能体验:以人为本的旅行图像方法
挑战:如何将用户自由形式的旅行查询(例如“sfo-jfk”)转化为旅行规划应用程序(Stardrift)中精美且相关的图像? 仅仅通过人工智能生成图像被证明质量低且成本高昂,而谷歌搜索则存在版权问题风险。
解决方案结合了大型语言模型、传统软件工程,以及至关重要的*人工策划*。 系统分为三个步骤:首先,大型语言模型识别查询中的“地点”,并为每个地点定义名称和类型(城市、地区、国家)。 其次,数据库将这些“地点”映射到从Unsplash获取的策划照片。 最后,软件检索适当的图像,即使对于未识别的地点,也会使用地理定位来查找最近的已映射地点。
填充数据库是一个手动但令人愉悦的过程。 虽然该系统并非完美——存在差距,并且图像选择反映了个人品味——但它展示了一个强大的原则:利用人工智能的优势,并辅以人类专业知识。 这种方法可以产生更精致、更“品味”的人工智能体验,避免完全依赖自动化解决方案的陷阱。 该系统还包括缺失地点提醒,允许通过手动补全进行持续改进。
## JFMM.net:改进大型手册的搜索
作者在海军服役期间,对3470页《联合舰队维护手册》(JFMM)缓慢而繁琐的搜索过程感到沮丧,因此构建了[JFMM.net](https://jfmm.net/)——一个语义搜索引擎,旨在改善对这些关键信息的访问。传统的文本搜索效果不佳,需要精确的词语匹配,并且在政府笔记本电脑上每次查询需要超过一分钟。
最初的版本使用了向量相似性搜索,使用`nomic-embed-text-v1.5`嵌入文本块,并将其存储在云托管的Postgres数据库中,使用`PGVector`。虽然功能可用,但成本很高。重写侧重于经济性和相关性。
作者切换到带有`sqlite-vec`扩展的轻量级SQLite数据库,从而能够在本地嵌入整个手册并部署更小的容器。量化,将模型精度降低到8位,进一步减少了RAM的使用。为了提高结果准确性,添加了一个重排序模型(`BAAI/bge-reranker-v2-m3`),尽管这会略微增加延迟。实施了HATEOAS分页方法,利用URL管理状态并提高效率。
结果是一个更相关、更便宜、更方便开发者的搜索工具,现在每月成本低于2美元,但由于重排序,查询速度略有下降。
## 距离最近的一次:末日钟内部
《原子科学家公报》在2026年1月将末日钟设定为距离午夜85秒——这是它距离象征性全球灾难最近的一次。这种紧迫性促使诺贝尔奖获得者和核专家在芝加哥大学举行会议,讨论减少生存威胁的策略。
该钟始于1947年,反映了理事会对核武器、气候变化、颠覆性技术和生物威胁等危险的评估。设定时间是一个复杂的过程,涉及分析、辩论,最终由来自不同领域的科学家和政策专家投票决定。尽管因其不精确性而受到批评,但该钟仍然是一个严峻的警告和行动呼吁。
受新军备竞赛、全球合作的侵蚀以及人工智能在战争中的崛起等问题的驱动,这次会议旨在发表一份声明,敦促世界领导人缓和局势。这一过程凸显了科学专业知识与人类行为不可预测性之间的紧张关系,承认即使了解风险,防止灾难也需要集体行动和持续寻求解决方案——正如一位专家所说,感觉就像“把海星扔回大海”。
## 代理编码与安全风险:摘要
Formal Labs 利用像 Claude Code 这样的代理编码工具来提高软件开发速度,但认识到授予这些工具广泛权限会带来固有的安全风险。允许文件编辑和常见的开发命令(如 `go test`、`go build`、`eslint`、`make`、`pnpm run`)可能会无意中赋予代理在开发者机器上执行*任何*命令的能力。
这是因为许多开发者工具被设计为执行任意代码——单元测试可以运行脚本,构建过程利用代码生成,而代码检查器接受可执行配置。即使是看似安全的命令,如 `go build`,也带有允许执行其他程序的标志。文件监听器(例如 Next.js 开发中使用的)也存在另一个漏洞点。
虽然命令白名单*可能*会降低恶意命令执行的可能性,但这是一种复杂且不可靠的方法。核心问题是开发者工具的构建并未考虑到潜在的恶意代码提供者。
Formal Labs 提倡**沙箱化**作为更可靠的解决方案。在受限环境中运行代理工具可以限制其潜在影响,无论它们尝试执行什么命令。Cursor 和 Claude Code 等工具开始集成沙箱化功能,为安全的代理开发提供了一条有希望的途径。