2025 年 10 月 27 日,中国人工智能公司 MiniMax 发布了 MiniMax M2 ,这是一个开源语言模型,在 SWE-bench Verified 测试中取得了 69.4 的成绩,与 GPT-5 的 74.9 分相差无几。M2 的卓越之处不仅仅在于其性能:M2 的成本比 Claude Sonnet 4.5 低 92%,推理速度却提高了 2 倍。

MiniMax M2 并非又一款试图包揽所有功能的通用法学硕士 (LLM)。它专为 AI 代理和编码工作流打造,原生支持 Shell、浏览器、Python 解释器和模型上下文协议 (MCP) 工具。结合 MiniMax Agent 平台 (2025 年 6 月推出),开发者现在拥有一个端到端的解决方案,用于构建生产级 AI 代理,且成本仅为西方替代方案的一小部分。

本指南涵盖 MiniMax M2 的架构、性能基准、定价、部署选项以及它如何与 MiniMax Agent 平台集成以向实际应用提供多模式 AI 功能。

MiniMax M2 是什么?

MiniMax M2 是一个拥有 2300 亿个参数的语言模型 ,其中包含 100 亿个活跃参数,专门针对 AI 代理工作流程和编码任务进行了优化。它于 2025 年 10 月 27 日发布,代表了新一代中国 AI 模型,旨在与 Claude Sonnet 4.5 和 GPT-5 等西方前沿模型直接竞争。

核心架构

M2 采用混合专家 (MoE) 架构, 总参数量达 2300 亿,但在推理时仅使用 100 亿。这种设计具有以下优势:

  • 推理速度: ~100 个 token/秒(比 Claude Sonnet 4.5 快约 2 倍)
  • 成本效率: 较小的活动参数数量可显著降低计算需求
  • 模型质量: 庞大的总参数池可实现跨不同任务类型的专业知识
  • 部署灵活性: 足够高效,可以通过 vLLM 或 SGLang 在消费硬件上运行

代理优先设计理念

与事后才添加工具调用的通用 LLM 不同,MiniMax M2 从一开始就致力于实现稳定的长链工具调用 。该模型原生支持:

这种代理优先的方法意味着 M2 可以处理需要按顺序调用多个工具的复杂多步骤工作流程——这一能力使其在 10 个不同测试集的人工智能分析基准测试中位居全球前五名

开源承诺

MiniMax 在 Hugging Face 发布后立即开源了 M2 模型权重。这一决定使 M2 跻身于一个罕见的领域:拥有前沿级的性能、完全透明的平台和自托管选项。开发者可以:

  • Download weights and fine-tune for specific use cases
  • Deploy on private infrastructure without API dependencies
  • Audit model behavior and safety characteristics
  • Build derivative models without licensing restrictions

Performance & Benchmarks

MiniMax M2 delivers competitive performance across coding, reasoning, and agentic benchmarks. Here’s how it stacks up against leading models:

SWE-bench Verified: 69.4

On SWE-bench Verified, the gold-standard benchmark for real-world coding tasks, M2 scores 69.4. This places it:

  • GPT-5 (thinking): 74.9 (5.5 points ahead)
  • MiniMax M2: 69.4
  • Claude Sonnet 4.5: ~77.2 (but at 12.5x the cost)
  • DeepSeek-V3.2: Similar range

Importantly, M2 was tested using the claude-code CLI with 300 max steps, ensuring consistency with how these models perform in real development workflows—not just isolated benchmark scenarios.

Agentic Task Benchmarks

M2 excels at multi-step agentic workflows that require planning, tool use, and error recovery:

These scores place M2 “at or near the level of top proprietary systems like GPT-5 (thinking) and Claude Sonnet 4.5,” according to independent analysis from Artificial Analysis.

Real-World Accuracy Testing

Independent testers ran blended accuracy tests (code unit tests, structured extraction correctness, and reasoning acceptability) with results:

  • MiniMax M2: ~95% accuracy
  • GPT-4o: ~90% accuracy
  • Claude Sonnet 4.5: ~88-89% accuracy

While these results come from limited testing scenarios, they suggest M2’s practical performance often exceeds what isolated benchmarks might predict.

Inference Speed Advantage

M2’s efficient architecture delivers ~100 tokens per second inference speed—approximately double the speed of competing models like Claude Sonnet 4.5. For AI agents that generate thousands of tokens across multi-step workflows, this speed advantage directly translates to:

  • Faster task completion times
  • Lower compute costs per task
  • Better user experience for interactive applications
  • More iterations possible within budget constraints

Pricing & Deployment Options

MiniMax M2’s pricing strategy makes frontier-level AI accessible to companies of all sizes. Here’s the complete breakdown:

API Pricing

To put this in perspective: a typical AI agent workflow that processes 100K input tokens and generates 50K output tokens would cost:

  • MiniMax M2: $0.09 per workflow
  • Claude Sonnet 4.5: ~$1.05 per workflow
  • GPT-5: ~$0.75 per workflow

For companies running thousands of agent workflows daily, M2’s pricing enables use cases that would be economically infeasible with Western APIs.

Free Trial Period

MiniMax is offering an extended free trial through November 7, 2025 (UTC). This gives developers 11 days to:

  • Test M2’s performance on production workloads
  • Compare against Claude, GPT-4, and other models
  • Validate cost savings with real usage patterns
  • Build proof-of-concept agents before committing to paid usage

Deployment Options

M2’s open-source nature enables multiple deployment strategies:

1. 云 API(推荐大多数人使用)

  • 通过 agent.minimax.io 即时访问
  • 无需基础设施管理
  • 自动扩展和负载平衡
  • 99.9% 正常运行时间 SLA

2. 使用 vLLM 自托管

# Install vLLM
pip install vllm

# Download MiniMax M2 weights
git clone https://huggingface.co/MiniMaxAI/MiniMax-M2

# Launch inference server
vllm serve MiniMaxAI/MiniMax-M2 \
  --trust-remote-code \
  --tensor-parallel-size 4 \
  --max-model-len 16384

3. 使用 SGLang 自托管

# Install SGLang
pip install "sglang[all]"

# Launch with optimized settings
python -m sglang.launch_server \
  --model-path MiniMaxAI/MiniMax-M2 \
  --port 30000 \
  --tp 4

4. 与开发工具集成

M2 与流行的 AI 编码助手无缝集成:

  • Claude Code: 使用 M2 作为 Claude 模型的直接替代品
  • 游标: 配置为自定义模型端点
  • Cline: 全面支持代理工作流程
  • Kilo Code: 原生集成
  • Droid: 移动开发代理支持

推荐的推理参数

为了获得最佳性能,MiniMax 建议采用以下采样参数:

{
  "temperature": 1.0,
  "top_p": 0.95,
  "top_k": 20,
  "max_tokens": 4096
}

MiniMax 代理平台

MiniMax M2 提供了基础模型,而 MiniMax Agent 平台 (于 2025 年 6 月 19 日发布)则提供了构建生产级 AI 代理的完整基础架构。经过近 60 天的内部测试(超过 50% 的 MiniMax 团队成员将其作为日常工具使用),该平台已在实际工作负载中得到充分验证。

核心能力

MiniMax Agent 被描述为“一种旨在解决长期复杂任务的通用智能代理”。它擅长:

三大设计支柱

1. 卓越的编程能力

该代理可处理复杂逻辑、端到端测试模拟以及用户体验/用户界面 (UX/UI) 优化。示例功能:

  • 根据需求生成全栈应用程序
  • 利用上下文感知调试现有代码库
  • 优化性能瓶颈
  • 创建交互式动画和 UI 组件

2. 多模态理解与生成

跨模态处理和创建内容:

  • 分析长视频内容并提取见解
  • 生成带有音频旁白的 15 分钟教育概述
  • 创建带有画外音的交互式教程
  • 根据文本描述构建视觉内容

3. MCP 集成

对模型上下文协议的本机支持可实现以下连接:

  • GitHub/GitLab: 存储库管理、PR 创建、CI/CD 触发器
  • Slack: 团队沟通和通知
  • Figma: 设计协作和资产生成
  • 自定义工具: 使用您自己的 MCP 服务器进行扩展

操作模式

该平台提供两种针对不同用例优化的模式:

平台架构

MiniMax Agent 目前依赖于多个专用模型,而非单一统一的系统。虽然这会带来“一些成本和效率方面的开销”(公司也承认),但它能够为每种模式带来一流的性能。团队正在积极整合,以提高日常使用的经济性。

访问 agent.minimax.io 平台(联系以获取企业定价)。

用例和应用

MiniMax M2 和 Agent 平台在特定类别的任务中表现出色。以下是经过验证的用例和具体示例:

1.全栈开发

2. 教育内容生成

该平台可以生成全面的教育材料:

  • 15分钟的概览视频,配有专业解说
  • 带有分步画外音的交互式教程
  • 视觉图表和概念解释
  • 测验和评估材料

3. 代码审查和重构

M2 强大的编码功能使其成为以下应用的理想选择:

  • 带有上下文建议的自动代码审查
  • 跨代码库的大规模重构
  • 性能优化建议
  • 安全漏洞检测与修复

4. 研究与分析

Pro Mode 擅长全面的研究工作流程:

  • 多源研究综合
  • 竞争分析报告
  • 市场研究和趋势识别
  • 技术文档分析

5. 工作流自动化

通过 MCP 集成,实现复杂业务流程的自动化:

  • GitHub PR 自动化(审查、测试、部署)
  • 基于 Slack 的团队工作流程和通知
  • 通过 Figma 集成实现设计到代码的流程
  • 针对特定领域任务的自定义工具编排

MiniMax M2 入门

以下是如何在您的项目中开始使用 MiniMax M2:

选项 1:云 API(最快设置)

步骤 1:agent.minimax.io 注册并获取您的 API 密钥。

步骤 2: 安装 Python SDK:

pip install minimax-sdk

步骤 3: 进行第一次 API 调用:

import minimax

# Initialize client
client = minimax.Client(api_key="your-api-key")

# Generate completion
response = client.chat.completions.create(
    model="minimax-m2",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a Python function to validate email addresses."}
    ],
    temperature=1.0,
    top_p=0.95
)

print(response.choices[0].message.content)

选项 2:自托管部署

为了获得完全控制和数据隐私,请在您自己的基础架构上部署 M2:

# Clone model weights from Hugging Face
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-M2

# Install vLLM (recommended for production)
pip install vllm

# Launch inference server
vllm serve MiniMaxAI/MiniMax-M2 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 16384 \
  --trust-remote-code

# Server runs at http://localhost:8000
# Use OpenAI-compatible API endpoints

选项 3:与 Claude Code 集成

使用 M2 作为 Claude 模型的直接替代品:

# In your Claude Code config
{
  "model": "minimax-m2",
  "api_base": "https://agent.minimax.io/v1",
  "api_key": "your-api-key"
}

免费试用期间测试

免费试用(有效期至 2025 年 11 月 7 日)非常适合评估。请运行以下测试:

  • 代码生成: 在典型的编码任务中比较 M2 与 Claude/GPT
  • 代理工作流程: 使用 Shell、浏览器和 Python 工具构建一个简单的代理
  • 速度测试: 测量工作负载的令牌/秒
  • 成本分析: 跟踪代币使用情况并计算每月成本
  • 质量评估: 评估特定领域任务的输出质量

MiniMax M2 与 Claude 与 GPT-5 对比

以下是 MiniMax M2 与西方前沿模型在关键维度上的比较:

性能比较

成本比较(每 100 万个代币)

Model 输入 输出 相对成本
MiniMax M2 $0.30 $1.20 1x(基线)
克劳德·桑奈特 4.5 $3.00 $15.00 价格高出 12.5 倍
GPT-5 $2.50 $10.00 价格高出 7 倍

速度比较

  • MiniMax M2: ~100 个代币/秒
  • 克劳德·桑奈特 4.5: ~50 个代币/秒
  • GPT-5: 约 40 个 token/秒

何时选择每种模型

如果符合以下条件,请选择 MiniMax M2:

  • 成本是主要考虑因素(具有高令牌量的代理工作流程)
  • 您需要对交互式应用程序进行快速推理
  • 需要开源部署(数据隐私、自托管)
  • 代理优先架构很重要(稳定的工具调用)
  • 您对 90-95% 的前沿性能感到满意

如果符合以下条件,请选择 Claude Sonnet 4.5:

  • 您需要绝对最佳的编码性能(77.2 SWE-bench)
  • 预算限制不那么严格
  • 优先考虑具有强大安全保障的云 API
  • 您需要经过验证的企业支持和可靠性

如果符合以下情况,请选择 GPT-5:

  • 你需要扩展思考和推理能力
  • 解决复杂的多步骤问题至关重要
  • 预算允许溢价

结论

MiniMax M2 代表了前沿 AI 能力普及化的重要里程碑。M2 在 SWE-bench Verified 测试中以 Claude 8% 的成本实现了 69.4 的成绩,推理速度提升了一倍,这使得之前无法承担高昂成本的公司能够经济地部署生产级 AI 代理。

开源版本进一步扩大了这一影响:开发者现在可以在私有基础架构上部署尖端的代理 AI,而无需受供应商锁定或担心 API 价格变化。结合 MiniMax Agent 平台的多模态功能和 MCP 集成,团队可以获得构建复杂 AI 工作流的端到端解决方案。

对于在 2025 年底评估 AI 战略的组织来说,MiniMax M2 应该列入候选名单,尤其是涉及以下用例的情况:

  • 大量代理工作流程(每天数千个任务)
  • 成本敏感的应用,90-95% 的前沿性能就足够了
  • 为数据隐私或合规性而进行的自托管部署
  • 快速迭代,推理速度提高 2 倍,从而实现更紧密的反馈循环

免费试用有效期至 2025 年 11 月 7 日,让您有机会用自己的工作负载验证这些声明,享受无风险的体验。立即访问 agent.minimax.io ,看看 M2 的性能-成本-速度平衡是否适合您的用例。

常见问题