MiniMax M2.1：专为现实世界中的复杂任务而设计，支持多语言编程。

MiniMax M2.1：专为现实世界中的复杂任务而设计，支持多语言编程。
MiniMax M2.1: Built for Real-World Complex Tasks, Multi-Language Programming

原始链接: https://www.minimaxi.com/news/minimax-m21

## MiniMax M2.1：迈向AI原生工作流 MiniMax发布了M2.1，这是对其核心模型的重大更新，专注于提升在现实世界中复杂任务中的性能。在解决了成本和可访问性的M2的基础上，M2.1在多编程语言支持（Rust、Java、Go、C++等）方面表现出色，并在Web和App开发方面有所改进，包括Android和iOS的UI/UX设计。主要改进包括增强了遵循复杂指令的能力——这对于办公应用至关重要——以及更简洁、高效的响应，降低了token使用量并加快了交互速度。M2.1展现了与流行的编码工具和代理框架的强大兼容性。基准测试表明，在多语言场景下，M2.1超越了Claude Sonnet 4.5和Gemini 3 Pro，性能接近Claude Opus 4.5。一个新的基准测试VIBE评估了全栈应用程序构建，M2.1在该测试中获得了与Claude Opus 4.5相当的分数。此外，M2.1引入了强大的“数字员工”能力，通过基于文本的网页交互自动化端到端任务。 MiniMax提供两个API版本——M2.1和更快的M2.1-lightning——并具有自动缓存功能，以改善用户体验和成本效益。

MiniMax 发布了其AI模型的2.1版本，旨在为企业和个人提供更“原生AI”的工作流程。此次更新侧重于模型本身的改进，以及用于组织和利用AI能力现有的“Agent”框架。然而，该公告也引发了一些批评。一位评论员认为语言过于冗长和“追逐炒作”，建议采用更简洁的方法。另一位则指出一个有趣的细节——该模型仍然使用Objective-C进行训练，预测它即使在Swift兴起后仍将保持相关性。最后，一位用户质疑其“开源”的说法，指出该模型即使是权重也不可公开访问。更多信息请访问MiniMax网站：[https://www.minimax.io/news/minimax-m21](https://www.minimax.io/news/minimax-m21)。

原文

MiniMax一直在用更AI 原生的方式改造自己。这个过程的核心驱动力是模型、Agent脚手架和组织。在探索过程中，我们对上述三点也有了越来越深刻的认知。今天我们开放模型部分的更新，也就是MiniMax M2.1，希望有机会能帮助到更多的企业和个人早日找到更AI原生的工作（生活）方式。

在10月底的M2中，我们主要解决模型成本和模型开放性的问题。在M2.1中，我们致力于提升真实世界复杂任务中的表现：重点聚焦于更多编程语言和办公场景的可用性，并在这个领域做到最好的水平。

MiniMax M2.1 具体模型亮点如下:

卓越多编程语言能力

过去很多模型主要围绕 Python 优化, 但真实世界的系统往往是多语言协作的结果。

在 M2.1 中, 我们系统性提升了 Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript 等语言的能力, 多语言任务整体表现达到业内领先水平, 覆盖从底层系统到应用层开发的完整链路。
WebDev 与 AppDev：能力与美学的整体跃迁

针对业界普遍存在的移动端开发短板, M2.1 显著加强了原生 Android / iOS 开发能力。

同时, 我们系统性提升了模型在 Web 与 App 场景中的设计理解与美学表达能力, 能够出色地构建复杂交互、3D科学场景模拟与高质量可视化表达, 推动 vibe coding 成为可持续、可交付的生产实践。
复合指令约束提升，办公场景变为可能

作为开源模型中率先系统性引入 Interleaved Thinking 的模型系列, M2.1 systematic problem-solving 能力再次升级。

模型不仅关注代码执行是否正确, 同时关注模型对“复合指令约束”的整合执行能力, 在真实办公场景具备更高的可用性。
更简洁高效的回复

相比 M2, MiniMax-M2.1 的模型回复以及思维链更加简洁, 在实际编程与交互体验中, 响应速度显著提升, Token 消耗明显下降, 在 AI Coding与Agent驱动的连续工作流中更加流畅和高效。
出色的 Agent / 工具脚手架泛化能力

M2.1 在各类编程工具与 Agent 框架中均有出色表现。在 Claude Code、Droid (Factory AI)、Cline、Kilo Code、Roo Code、BlackBox 等工具中展现一致且稳定的效果, 并对 Skill.md、Claude.md / agent.md / cursorrule、Slash Command 等 Context Management机制提供可靠支持。
高质量对话和写作

M2.1 不再只是“代码能力更强”, 在日常对话、技术说明与写作场景中, 也能提供更具细节与结构性的回答。

在软件工程相关场景的核心榜单上，MiniMax-M2.1相比于M2有了显著的提升，尤其是在多语言场景上，超过 Claude Sonnet 4.5和Gemini 3 Pro，并接近Claude Opus 4.5。

我们在不同coding agent框架上测试了SWE-bench Verified，结果表明MiniMax-M2.1具有良好的框架泛化性和稳定的表现。而在公开的测试用例生成、代码性能优化，以及自建的代码审阅、指令遵从等细分场景的榜单上，MiniMax-M2.1相比M2都表现出了全面的提升，持平或超过Claude Sonnet 4.5。

为了衡量模型“从零到一”构建完整、可运行应用程序的全栈能力，我们构建并开源了全新基准 VIBE (Visual & Interactive Benchmark for Execution) 测试集，涵盖了 Web、仿真 (Simulation)、Android、iOS 及后端 (Backend) 五大核心子集。不同于传统基准，通过创新的 Agent-as-a-Verifier (AaaV) 范式，VIBE 能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。这个评测集稍后将在Github上开源。
MiniMax-M2.1 在 VIBE 综合榜单中表现卓越，以平均 88.6 分的成绩展现了接近Claude Opus 4.5的全栈构建能力，并在几乎所有子集上都显著优于Claude Sonnet 4.5。

在办公场景、长程工具调用和综合智能指数上，MiniMax-M2.1 相比 M2 也表现出稳步提升，体现了模型解决更多真实世界复杂任务的能力。

过去几天，通过MiniMax全球的开发者社区，我们开放内测了M2.1的模型，也收到了非常多的热心反馈。下面是其中一些国际头部AI平台和合作方对MiniMax-M2.1的评价。

数字员工是 MiniMax M2.1 模型的重要功能之一。M2.1 能够接受以文字形式展示的网页内容，并以文本形态的输入控制鼠标的点击行为和键盘输入，在日常办公场景下，完成行政、数据科学、财务、人力资源、软件开发类的端到端任务。
以下效果演示是 M2.1 在 AgentCompany Benchmark 中的行为轨迹记录。

为了方便用户使用, 我们提供了两个版本的 API, M2.1 和 M2.1-lightning。这两个 API 结果完全一样, 但是后者速度更快, 方便对 TPS 有需求的用户来使用。同时, 在 M2 手动 Cache 的基础上, M2.1 全面支持自动 Cache, 无需设置, 自动生效, 为开发者带来更流畅的体验、更低的成本与更优的延时表现。

我们在 Coding Plan 里面会根据资源负载给用户提供大比例的 M2.1-lightning, 并保持 Coding Plan 的价格不变。也就是说, Coding Plan 用户免费获得了大部分时间更快的推理速度。欢迎大家点击下单~

MiniMax M2.1：专为现实世界中的复杂任务而设计，支持多语言编程。 MiniMax M2.1: Built for Real-World Complex Tasks, Multi-Language Programming

MiniMax M2.1：专为现实世界中的复杂任务而设计，支持多语言编程。
MiniMax M2.1: Built for Real-World Complex Tasks, Multi-Language Programming