人工分析 --- Artificial Analysis --知识铺

MiniMax M2 基准测试和分析

MiniMax 的 M2 在开放权重模型中获得了新的最高智能指数得分，并且仅使用 100 亿个活动参数（总共 2000 亿个）就提供了令人印象深刻的效率

关键要点：

大规模应用效率： MiniMax-M2 总共拥有 2000 亿个参数，并且非常稀疏，每次前向传播仅需 100 亿个有效参数。如此少的有效参数使得该模型能够高效地大规模应用（DeepSeek V3.2 总共拥有 671 亿个参数，其中 37 亿个有效参数；Qwen3 总共拥有 235 亿个参数，其中 22 亿个有效参数）。该模型还能轻松适应 FP8 精度的 4xH100 处理器
优势聚焦于代理用例： 该模型的优势在于工具使用和指令遵循能力（如 Tau2 Bench 和 IFBench 所示）。因此，虽然 M2 可能在代理用例方面表现出色，但在某些通用任务中，其表现可能逊于其他开放权重模型的领先者，例如 DeepSeek V3.2 和 Qwen3 235B。这与中国人工智能实验室近期发布的一系列专注于代理能力的开放权重模型一致，这可能表明其在训练后阶段会重点关注强化学习。与大多数其他领先的开放权重模型类似，M2 是一个纯文本模型——阿里巴巴近期发布的 Qwen3 VL 仍然是领先的开放权重多模态模型。
成本和代币使用情况： MiniMax 的 API 以极具竞争力的代币价格提供该模型，每 100 万个输入/输出代币 0.3 美元/1.2 美元。然而，该模型非常繁琐，使用了 1.2 亿个代币来完成我们的智能指数评估——与 Grok 4 并列最高。因此，虽然它是一个价格低廉的模型，但高代币使用量使其性能有所降低。
中国人工智能实验室继续在开源领域保持领先地位： MiniMax 的发布延续了中国人工智能实验室在开源领域的领导地位，DeepSeek 于 2024 年底启动了这一进程，而 DeepSeek 的后续发布、阿里巴巴、Z AI 和 Moonshot AI 也延续了这一趋势。

请参阅下文以了解更多分析以及人工分析模型的链接

Artificial Analysis Intelligence Index