小心,DeepSeek 和 Qwen!开源大型语言模型 (LLM) 出现了新的王者,尤其是在企业越来越重视的方面:代理工具的使用——即无需太多人工指导即可使用其他软件功能(如网页搜索或定制应用程序)的能力。

这个模型就是 MiniMax-M2 ,这是来自同名中国初创公司的最新法学硕士学位。对于全球企业来说,这是一个巨大的胜利,该模型采用宽松的、企业友好的 MIT 许可证,这意味着开发人员可以免费获取、部署、重新训练并按照自己认为合适的方式使用它——甚至用于商业用途。它可以在 Hugging FaceGitHubModelScope 上找到,也可以通过 MiniMax 的 API 找到。 它还支持 OpenAI 和 Anthropic API 标准,这使得上述专有 AI 初创公司的客户可以轻松地将其模型转移到 MiniMax 的 API(如果他们愿意的话)。

根据第三方生成式人工智能模型基准测试和研究机构 Artificial Analysis 的独立评估 ,M2 目前在智能指数(推理、编码和任务执行性能的综合衡量标准)上在全球所有开放权重系统中排名第一。

在衡量模型规划、执行和使用外部工具(为编码助手和自主代理提供动力的技能)能力的代理基准测试中,MiniMax 自己报告的结果遵循人工分析方法,显示 τ²-Bench 77.2、BrowseComp 44.0 和 FinSearchComp-global 65.5。

这些分数使其达到或接近 GPT-5(思考)和 Claude Sonnet 4.5 等顶级专有系统的水平,使 MiniMax-M2 成为迄今为止针对现实世界代理和工具调用任务发布的性能最高的开放模型。

这对企业和人工智能竞赛意味着什么

MiniMax-M2 基于高效的混合专家 (MoE) 架构构建,为代理和开发人员工作流程提供高端功能,同时保持企业部署的实用性。

对于技术决策者来说,此次发布标志着开放模型在商业环境中的重要转折点。MiniMax-M2 将前沿推理与可控的激活足迹相结合——在 2300 亿个参数中,仅需 100 亿个激活参数。

这种设计使企业能够在更少的 GPU 上运行高级推理和自动化工作负载,从而实现接近最先进的结果,而无需专有前沿系统相关的基础设施需求或许可成本。

人工智能分析的数据显示,MiniMax-M2 的优势不仅仅在于原始的智力得分。该模型在端到端编码、推理和代理工具使用等基准测试中,领先或紧随 GPT-5(思考)和 Claude Sonnet 4.5 等顶级专有系统。

它在 τ²-Bench、SWE-Bench 和 BrowseComp 中的表现表明,对于依赖能够规划、执行和验证复杂工作流程的 AI 系统的组织来说,存在特殊优势——这是企业环境中代理和开发人员工具的关键功能。

正如法学硕士工程师 Pierre-Carl Langlais(又名 Alexander Doria)在 X 上所说 :“MiniMax 正在为掌握端到端技术以实现实际的代理自动化提供依据。”

紧凑的设计,可扩展的性能

MiniMax-M2 的技术架构是一个稀疏的混合专家模型,总共有 2300 亿个参数,每次推理有 100 亿个活跃参数。

这种配置显著降低了延迟和计算要求,同时保持了广泛的通用智能。

该设计允许响应代理循环(编译-运行-测试或浏览-检索-引用循环),其执行速度比密集模型更快、更可预测。

对于企业技术团队来说,这意味着更容易扩展、更低的云成本和减少的部署摩擦。 根据人工智能分析, 该模型只需四个 NVIDIA H100 GPU 即可以 FP8 精度高效运行 ,对于中型组织或部门 AI 集群来说,这种设置是可以实现的。

代理和编码工作流程的基准领导力

MiniMax 的基准测试套件凸显了其在开发者和代理环境中的强劲实际性能。下图与模型一同发布,将 MiniMax-M2(红色)与多个领先的专有和开放模型进行了比较,包括 GPT-5(思考)、Claude Sonnet 4.5、Gemini 2.5 Pro 和 DeepSeek-V3.2。

MiniMax M2-performance benchmarks graphic from MiniMax

MiniMaxAI 在编码和代理任务方面的基准比较,2025 年 10 月。图片来源:MiniMax

MiniMax-M2 在许多类别中都达到了顶级或接近顶级的性能:

  • SWE-bench 验证:69.4 — 接近 GPT-5 的 74.9

  • ArtifactsBench:66.8 — 高于 Claude Sonnet 4.5 和 DeepSeek-V3.2

  • τ²-Bench:77.2——接近 GPT-5 的 80.1

  • GAIA(仅限文本):75.7 — 超越 DeepSeek-V3.2

  • BrowseComp:44.0 — 明显强于其他开放模型

  • FinSearchComp-global:65.5 — 在经过测试的开放重量系统中表现最佳

这些结果表明 MiniMax-M2 能够在多种语言和环境下执行复杂的、工具增强的任务——这些技能对于企业内部的自动化支持、研发和数据分析越来越重要。

人工智能分析的智能指数表现强劲

该模型的整体智能概况在最新的人工智能分析指数 v3.0 中得到确认,该指数汇总了 MMLU-Pro、GPQA Diamond、AIME 2025、IFBench 和 τ²-Bench Telecom 等十个推理基准的性能。

MixMax on Artificial Analysis Intelligence Index circa October 2025

人工智能分析指数 v3.0,2025 年 10 月。来源:人工智能分析

MiniMax-M2 得分 61 分 ,位列全球最高公开重量级模型,紧随 GPT-5(高)和 Grok 4 之后。

人工智能分析强调了该模型在技术准确性、推理深度和跨领域应用智能之间的平衡。对于企业用户而言,这种一致性表明该模型拥有可靠的模型基础,适合集成到软件工程、客户支持或知识自动化系统中。

专为开发人员和代理系统设计

MiniMax 为端到端开发人员工作流程设计了 M2,可直接在集成开发环境或 CI/CD 管道中进行多文件代码编辑、自动化测试和回归修复。

该模型在代理规划方面也表现出色——处理结合网络搜索、命令执行和 API 调用的任务,同时保持推理可追溯性。

这些功能使得 MiniMax-M2 对于探索自主开发代理、数据分析助手或 AI 增强操作工具的企业特别有价值。

Terminal-Bench 和 BrowseComp 等基准测试证明了该模型适应不完整数据和从中间错误中优雅恢复的能力,从而提高了生产环境中的可靠性。

交错思维和结构化工具使用

MiniMax-M2 的一个独特之处在于其交错思维格式,它在 标签。

这使得模型能够规划和验证跨多个对话的步骤,这对于代理推理至关重要。MiniMax 建议在传递对话历史记录时保留这些片段,以保持模型的逻辑性和连续性。

该公司还在 Hugging Face 上提供了工具调用指南 ,详细介绍了开发人员如何通过结构化的 XML 样式调用连接外部工具和 API。

此功能允许 MiniMax-M2 作为更大代理框架的推理核心,通过外部函数执行搜索、检索和计算等动态任务。

开源访问和企业部署选项

企业可以通过 MiniMax 开放平台 APIMiniMax 代理界面 (类似于 ChatGPT 的网络聊天)访问该模型,目前两者均在限定时间内免费。

MiniMax 推荐使用 SGLang 和 vLLM 来实现高效服务,它们各自为模型独特的交错推理和工具调用结构提供第一天的支持。

部署指南和参数配置可通过 MiniMax 的文档获得。

成本效率和代币经济学

正如 Artificial Analysis 所指出的, MiniMax 的 API 定价每百万输入令牌 0.30 美元每百万输出令牌 1.20 美元 ,在开放模型生态系统中是最具竞争力的。

注释和警告(供读者参考):

  • 价格以每百万代币美元计算,并且可能会发生变化;检查链接页面以了解更新和区域/端点细微差别(例如,Anthropic 长上下文 >200K 输入、Google Live API 变体、缓存折扣)。

  • 供应商可能会对服务器端工具(网络搜索、代码执行)收取额外费用或提供批处理/上下文缓存折扣。

虽然该模型产生更长、更明确的推理轨迹,但其稀疏激活和优化的计算设计有助于保持良好的性价比平衡——这对于部署交互式代理或大容量自动化系统的团队来说是一个优势。

MiniMax——中国新兴企业的背景

MiniMax 已迅速成为中国快速崛起的人工智能领域最受关注的公司之一。

在阿里巴巴和腾讯的支持下,该公司在一年内从默默无闻一跃成为国际知名企业——首先是通过人工智能视频生成方面的突破,然后是通过一系列针对开发人员和企业的开放式大型语言模型(LLM)。

该公司于 2024 年末凭借其 AI 视频生成工具“video-01”首次引起全球关注 ,该工具展示了在几秒钟内创建动态电影场景的能力。VentureBeat 报道称,该模型的推出引发了广泛关注,因为网络创作者开始分享栩栩如生的 AI 生成视频——其中最令人难忘的是一段 《星球大战》 光剑决斗的热门视频,在不到两天的时间内就获得了数百万的观看量。

首席执行官严俊杰强调,该系统在生成人体动作和表情方面的表现优于西方领先的工具,而这正是视频 AI 通常难以突破的领域。该产品后来通过 MiniMax 的_海螺_平台实现了商业化,展现了这家初创公司的技术自信和创造力,并帮助中国成为生成视频技术领域的有力竞争者。

到 2025 年初,MiniMax 将注意力转向长上下文语言建模,推出了 MiniMax-01 系列,包括 MiniMax-Text-01 和 MiniMax-VL-01 。这些开放权重模型引入了前所未有的 400 万个 token 上下文窗口,覆盖范围是 Google Gemini 1.5 Pro 的两倍,比 OpenAI 的 GPT-4o 还要高出 20 倍以上。

该公司继续保持快速发展势头, 于 2025 年 6 月发布了 MiniMax-M1 模型,该模型专注于长上下文推理和强化学习效率。M1 将上下文容量扩展至 100 万个标记,并引入了混合专家模型设计,该设计使用名为 CISPO 的自定义强化学习算法进行训练。值得注意的是,VentureBeat 报道称,MiniMax 训练 M1 的总成本约为 534,700 美元,约为 DeepSeek R1 的十分之一,远低于前沿规模模型通常数百万美元的预算。

对于企业和技术团队而言,MiniMax 的发展轨迹标志着新一代经济高效、开放重量级模型的到来,这些模型专为实际部署而设计。其开放许可(从 Apache 2.0 到 MIT)使企业能够自由定制、自主托管和微调,而无需受供应商锁定或合规性限制。

结构化函数调用、长上下文保留和高效注意力架构等功能直接满足了管理多步推理系统和数据密集型管道的工程组的需求。

随着 MiniMax 不断扩大其产品线,该公司已成为开放式人工智能领域的主要全球创新者,将雄心勃勃的研究与务实的工程相结合。

公开重量级领导力和行业背景

MiniMax-M2 的发布巩固了中国人工智能研究团队在开放权重模型开发领域日益增强的领导地位。

继 DeepSeek、阿里巴巴的 Qwen 系列和 Moonshot AI 的早期贡献之后,MiniMax 的加入延续了面向实际使用的开放、高效系统的趋势。

人工分析观察到,MiniMax-M2 体现了对代理能力和强化学习细化的更广泛关注,优先考虑可控推理和实际效用而不是原始模型大小。

对于企业而言,这意味着可以访问最先进的开放模型,该模型可以完全透明地进行审计、微调和内部部署。

通过将强大的基准性能与开放许可和高效扩展相结合,MiniMaxAI 将 MiniMax-M2 定位为具有可追溯逻辑的思考、行动和协助的智能系统的实用基础,使其成为当今最适合企业的开放 AI 模型之一。