这项研究是SIMA 2团队的大规模协作成果,该团队由50多名研究人员组成,并感谢谷歌和谷歌DeepMind领导的大力支持。该项目受益于过往团队成员、游戏开发者(包括《Valheim》、《No Man’s Sky》和《Teardown》的开发者)以及专注于模型开发(Genie 3)和关键项目组件的合作伙伴团队的贡献。 许多谷歌内部团队——包括法律、营销和安全部门——也提供了重要帮助。这项工作献给已故的同事菲利克斯·希尔和法比奥·帕尔多,以表彰他们对该领域的持久影响。致谢强调了这项研究工作的真正跨学科和协作性质。
## Perplexity 在万亿参数模型推理方面的进展
Perplexity 开发了新的内核,以高效运行大型混合专家 (MoE) 模型,例如 Kimi-K2 (1T 参数)。这类模型由于其庞大的规模,即使对于强大的 GPU 来说也构成挑战,需要将计算分布到多个节点上。
他们的研究重点是优化至关重要的“分发”和“组合”内核——负责将 token 路由到专家并重新组合结果,在 NVIDIA ConnectX-7 InfiniBand 以及关键的 AWS Elastic Fabric Adapter (EFA) 上实现了最先进的延迟。 之前的解决方案难以克服 EFA 的限制,但 Perplexity 的内核利用混合 CPU-GPU 架构和优化的数据传输,实现了在 AWS 上可行的万亿参数模型部署。
关键改进包括批量数据传输、专门的代理实现,以及利用 RDMA 和 NVLink 进行节点内通信。 基准测试表明,在 ConnectX-7 上,性能优于现有的 DeepEP 解决方案;在 EFA 上,性能优于 UCCL-EP。 这使得 Perplexity 能够成功地在 AWS 上提供 DeepSeek-V3 (671B) 和 Kimi-K2 等模型,证明了其方法的扩展性和实用性。 代码可在 [GitHub](https://github.com/) 上获取,完整的研究论文可在 [arXiv](https://arxiv.org/) 上获取。