MiniMax M2 基准测试和分析

MiniMax 的 M2 在开放权重模型中获得了新的最高智能指数得分,并且仅使用 100 亿个活动参数(总共 2000 亿个)就提供了令人印象深刻的效率

关键要点:

  • 大规模应用效率: MiniMax-M2 总共拥有 2000 亿个参数,并且非常稀疏,每次前向传播仅需 100 亿个有效参数。如此少的有效参数使得该模型能够高效地大规模应用(DeepSeek V3.2 总共拥有 671 亿个参数,其中 37 亿个有效参数;Qwen3 总共拥有 235 亿个参数,其中 22 亿个有效参数)。该模型还能轻松适应 FP8 精度的 4xH100 处理器
  • 优势聚焦于代理用例: 该模型的优势在于工具使用和指令遵循能力(如 Tau2 Bench 和 IFBench 所示)。因此,虽然 M2 可能在代理用例方面表现出色,但在某些通用任务中,其表现可能逊于其他开放权重模型的领先者,例如 DeepSeek V3.2 和 Qwen3 235B。这与中国人工智能实验室近期发布的一系列专注于代理能力的开放权重模型一致,这可能表明其在训练后阶段会重点关注强化学习。与大多数其他领先的开放权重模型类似,M2 是一个纯文本模型——阿里巴巴近期发布的 Qwen3 VL 仍然是领先的开放权重多模态模型。
  • 成本和代币使用情况: MiniMax 的 API 以极具竞争力的代币价格提供该模型,每 100 万个输入/输出代币 0.3 美元/1.2 美元。然而,该模型非常繁琐,使用了 1.2 亿个代币来完成我们的智能指数评估——与 Grok 4 并列最高。因此,虽然它是一个价格低廉的模型,但高代币使用量使其性能有所降低。
  • 中国人工智能实验室继续在开源领域保持领先地位: MiniMax 的发布延续了中国人工智能实验室在开源领域的领导地位,DeepSeek 于 2024 年底启动了这一进程,而 DeepSeek 的后续发布、阿里巴巴、Z AI 和 Moonshot AI 也延续了这一趋势。

请参阅下文以了解更多分析以及人工分析模型的链接

Artificial Analysis Intelligence Index

MiniMax-M2 的体积相对较小(200B),但智能程度较高,且活动参数较少(10B),这使其在大型模型中智能与活动参数方面处于领先地位

Intelligence vs Active Parameters

Intelligence vs Total Parameters

MiniMax-M2 的规模化服务效率支撑了 MiniMax 极具竞争力的定价,即每 100 万个输入/输出令牌 0.3 美元/1.2 美元。然而,该模型非常冗长,与 Grok 4 相当。因此,虽然它仍然比许多其他领先模型便宜得多,但由于其较高的令牌使用量,运行人工智能指数的成本差异有所缩小。

Cost to Run Artificial Analysis Intelligence Index

Intelligence vs Cost to Run Artificial Analysis Intelligence Index

Output Tokens Used to Run Artificial Analysis Intelligence Index

个人评估分数,全部由人工分析独立运行

Intelligence Evaluations

请参阅人工分析以了解更多基准:

https://artificialanalysis.ai/models/minimax-m2