## Mamba-3:一种新的状态空间模型推理关注点 继Mamba-2专注于状态空间模型(SSM)的训练速度后,LLM领域的重点正在转向高效*推理*——使用训练好的模型的过程。虽然Mamba-2简化了SSM以加快训练速度,但这导致了受内存限制的推理,从而限制了性能。 Mamba-3通过设计一种专门用于高效推理的SSM来解决这个问题。它解决了线性模型(如Mamba-2)中固定大小状态的局限性——这些状态压缩了所有过去的信息——通过提高SSM机制的表达能力,利用复值系统扩展状态跟踪能力,并利用并行处理。 关键改进包括更通用的递归、多输入多输出(MIMO)SSM以及QKNorm等架构更新。这些变化在保持与Mamba-2相似的推理延迟的同时,显著提升了性能,甚至在某些情况下超越了Transformer。Mamba-3利用Triton、TileLang和CuTe DSL等工具来实现优化的内核性能,并已开源以供进一步开发。最终,Mamba-3旨在突破LLM的质量-效率边界,认识到快速有效的模型部署日益重要。