水星2：由扩散模型驱动的最快推理LLM

水星2：由扩散模型驱动的最快推理LLM
Mercury 2: The fastest reasoning LLM, powered by diffusion

原始链接: https://www.inceptionlabs.ai/blog/introducing-mercury-2

## 水星2：人工智能快速推理的新时代 Inception发布了水星2，这是一种专为速度和实时人工智能应用而设计的突破性语言模型。与传统LLM按顺序生成文本不同，水星2采用基于扩散的方法，并行生成token，从而实现显著更快的速度——速度提升超过5倍，且速度曲线不同。这种速度能够在实时延迟预算内解锁更高质量的推理，这对于涉及代理、检索和提取的现代人工智能工作流程至关重要。水星2在NVIDIA Blackwell GPU上可达到1,009 tokens/秒的速度，价格为0.25美元/100万输入tokens和0.75美元/100万输出tokens，同时还具有128K上下文和原生工具使用等功能。早期采用者在编码辅助、代理工作流程、实时语音交互以及搜索/RAG管道等领域看到了变革性的结果。Zed、Viant和Happyverse AI等公司报告称，水星2的速度至少比GPT-5.2快两倍，能够实现更具响应性和智能性的应用。水星2现已推出，并具有OpenAI API兼容性，方便集成。

## 水星2：基于扩散LLM的快速推理一款新的LLM，水星2（来自inceptionlabs.ai），因其速度而备受关注，据称实现了令人印象深刻的token生成速率。Hacker News的讨论集中在*这种*速度如何转化为实际效益。用户们争论原始速度是否胜过模型“质量”——过去的经验表明，即使速度较慢，更强大的模型更受欢迎。然而，更快的响应能够实现更快的迭代，反映了从彻底研究向更快、网络赋能工具的转变。主要潜在优势包括无缝的多轮提示，可能减少幻觉，并能够并行探索解决方案空间。具体用例包括使用自动化测试和验证进行快速SQL查询优化，以及利用较小的模型来评估较大的模型。最终，共识强调，速度最有价值之处在于与健全的验证和确认流程相结合，而不是仅仅依赖更快的代码生成。

The fastest reasoning LLM, powered by diffusion

Today, we're introducing Mercury 2 — the world's fastest reasoning language model, built to make production AI feel instant.

Why speed matters more now

Production AI isn't one prompt and one answer anymore. It's loops: agents, retrieval pipelines, and extraction jobs running in the background at volume. In loops, latency doesn’t show up once. It compounds across every step, every user, every retry.

Yet current LLMs still share the same bottleneck: autoregressive, sequential decoding. One token at a time, left to right.