人工分析 --- Artificial Analysis --知识铺
MiniMax M2 基准测试和分析
MiniMax 的 M2 在开放权重模型中获得了新的最高智能指数得分,并且仅使用 100 亿个活动参数(总共 2000 亿个)就提供了令人印象深刻的效率
关键要点:
- 大规模应用效率: MiniMax-M2 总共拥有 2000 亿个参数,并且非常稀疏,每次前向传播仅需 100 亿个有效参数。如此少的有效参数使得该模型能够高效地大规模应用(DeepSeek V3.2 总共拥有 671 亿个参数,其中 37 亿个有效参数;Qwen3 总共拥有 235 亿个参数,其中 22 亿个有效参数)。该模型还能轻松适应 FP8 精度的 4xH100 处理器
- 优势聚焦于代理用例: 该模型的优势在于工具使用和指令遵循能力(如 Tau2 Bench 和 IFBench 所示)。因此,虽然 M2 可能在代理用例方面表现出色,但在某些通用任务中,其表现可能逊于其他开放权重模型的领先者,例如 DeepSeek V3.2 和 Qwen3 235B。这与中国人工智能实验室近期发布的一系列专注于代理能力的开放权重模型一致,这可能表明其在训练后阶段会重点关注强化学习。与大多数其他领先的开放权重模型类似,M2 是一个纯文本模型——阿里巴巴近期发布的 Qwen3 VL 仍然是领先的开放权重多模态模型。
- 成本和代币使用情况: MiniMax 的 API 以极具竞争力的代币价格提供该模型,每 100 万个输入/输出代币 0.3 美元/1.2 美元。然而,该模型非常繁琐,使用了 1.2 亿个代币来完成我们的智能指数评估——与 Grok 4 并列最高。因此,虽然它是一个价格低廉的模型,但高代币使用量使其性能有所降低。
- 中国人工智能实验室继续在开源领域保持领先地位: MiniMax 的发布延续了中国人工智能实验室在开源领域的领导地位,DeepSeek 于 2024 年底启动了这一进程,而 DeepSeek 的后续发布、阿里巴巴、Z AI 和 Moonshot AI 也延续了这一趋势。
请参阅下文以了解更多分析以及人工分析模型的链接
MiniMax-M2 的体积相对较小(200B),但智能程度较高,且活动参数较少(10B),这使其在大型模型中智能与活动参数方面处于领先地位
MiniMax-M2 的规模化服务效率支撑了 MiniMax 极具竞争力的定价,即每 100 万个输入/输出令牌 0.3 美元/1.2 美元。然而,该模型非常冗长,与 Grok 4 相当。因此,虽然它仍然比许多其他领先模型便宜得多,但由于其较高的令牌使用量,运行人工智能指数的成本差异有所缩小。
个人评估分数,全部由人工分析独立运行
请参阅人工分析以了解更多基准:
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai002/post/20251029/%E4%BA%BA%E5%B7%A5%E5%88%86%E6%9E%90---Artificial-Analysis/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com
See Also
- 消息人士称,中国人工智能公司 MiniMax 计划在香港 IPO 中实现 40 亿美元以上的估值 路透社 --- Chinese AI firm MiniMax targets $4 billion-plus valuation in Hong Kong IPO, sources say Reuters --知识铺
- MiniMax-M2 是开源 LLM 的新王者(尤其是对于代理工具调用) VentureBeat --- MiniMax-M2 is the new king of open source LLMs (especially for agentic tool calling) VentureBeat --知识铺
- MiniMax-M2:这款轻量级 AI 代理如何革新可部署智能 Efficient Coder --- MiniMax-M2 How This Lightweight AI Agent Is Revolutionizing Deployable Intelligence Efficient Coder --知识铺
- MiniMax Hailuo 2.3:全新级别的复杂视频性能和媒体代理 - MiniMax 新闻 --- MiniMax Hailuo 2.3 A New Level of Complex Video Performance & Media Agent - MiniMax News --知识铺
- MiniMax 发布 M2 开源型号,速度翻倍,价格仅为 Claude Sonnet 的 8_ · TechNode --- MiniMax releases M2 open-source model , offering double speed at 8_ of Claude Sonnet’s price · TechNode --知识铺