MiniMax M2.5正式发布,带动股价上涨35%

36氪的朋友们·2026年02月13日 12:13
MiniMax M2.5作为M2系列的最新迭代,在技术框架上基本延续了M2.1的核心架构,主要通过工程优化实现了能力增强。
我要联系

本文原始材料由Minimax官方发布的博客及编辑整理的技术发展路径组成,由Minimax 2.5撰写,编辑仅对其中一处显著错误进行了删除处理,并添加了当日股价变化情况。可视作对Minimax写作能力的一个测试。

一、模型定位与核心能力

2026年2月,MiniMax正式发布新一代旗舰模型M2.5。根据MiniMax官方发布的信息,M2.5是一款经过海量真实环境强化学习训练的大模型,在编程、智能体工具使用、搜索以及办公生产力等高价值经济任务领域达到了行业领先水平。该模型在SWE-Bench Verified测试中获得80.2%的得分,在Multi-SWE-Bench中获得51.3%的得分,在BrowseComp(包含上下文管理)中获得76.3%的得分。

值得注意的是,根据官方数据,M2.5在复杂智能体任务的执行效率上实现了显著提升。M2.5完成SWE-Bench Verified评估的速度比M2.1快37%,与Claude Opus 4.6的执行速度基本持平。这一性能提升主要得益于模型在任务分解和推理效率方面的优化。

MiniMax在官方发布中明确表示,M2.5是其M系列模型的最新迭代,延续了M2.1的核心技术框架。

根据MiniMax发布的技术演进文档,从M1到M2.5的技术发展脉络清晰:M1专注于推理深度的突破,M2聚焦于高效编码和智能体工作流,而M2.5则在此基础上进一步强化了多场景应用能力。M2.5并非全新的技术范式,而是在M2.1基础上的工程优化和能力增强。

二、技术框架分析:延续与工程优化

2.1 整体架构设计

根据MiniMax官方发布的技术信息,M2.5采用了与M2相同的混合专家模型(MoE)架构,总参数规模达到2300亿,但在推理时仅激活100亿参数。这种“极端稀疏性”的设计哲学是M系列的核心特征,旨在实现“小激活、大智慧”的计算效率。

从技术演进的视角来看,M2.5的框架基本完全延续M2.1。根据MiniMax发布的技术演进文档,M2.1主要强化了多语言编程能力,专注于解决复杂软件工程中的跨语言逻辑对齐问题;而M2.5则在此基础上进一步优化了在编程、工具调用、搜索增强(RAG)以及办公生产力场景中的表现。这说明M2.5的架构层面并未发生根本性变革,而是在已有框架下的工程更新和能力扩展。

2.2 Forge智能体原生强化学习框架

M2.5延续了名为Forge的智能体原生强化学习框架,此框架从M2.1开始推出。根据官方发布的技术说明,Forge的核心设计理念是引入一个中间层,将底层训练-推理引擎与智能体完全解耦,从而支持任意智能体的集成,并能够优化模型在不同智能体脚手架和工具间的泛化能力。

在系统吞吐量优化方面,Forge采用了异步调度策略来平衡系统吞吐量与样本偏离度(sample off-policyness)之间的矛盾。此外,Forge还设计了树状结构合并策略用于训练样本处理,据官方称该策略实现了约40倍的训练加速。这一工程优化显著提升了大规模强化学习训练的效率。

2.3 强化学习算法与奖励设计

在算法层面,M2.5继续采用MiniMax于2024年初提出的CISPO算法。根据官方说明,该算法的主要作用是确保MoE模型在大规模训练过程中的稳定性。

针对智能体 rollout中长上下文带来的信用分配(credit assignment)挑战,M2.5引入了过程奖励机制,用于端到端监控生成质量。此外,为了深度对齐用户体验,模型还通过智能体轨迹评估任务完成时间,从而在模型智能与响应速度之间实现最优权衡。这种奖励设计反映了MiniMax对实际应用场景的重视。

2.4 训练数据与评估体系

M2.5的训练覆盖了超过10种编程语言,包括Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart和Ruby,训练环境超过20万个真实场景。这一广泛的语言和场景覆盖确保了模型在多元化开发环境中的泛化能力。

在办公场景方面,M2.5的训练深度整合了金融、法律和社会科学等领域资深专业人士的领域知识。这些专家不仅设计需求、提供反馈、参与标准定义,还直接参与数据构建,将各自行业的隐性知识融入模型训练流程。这种专业化的数据构建策略是M2.5在专业办公场景中取得突破的关键因素。

评估体系方面,MiniMax构建了内部Cowork Agent评估框架(GDPval-MM),该框架通过成对比较评估交付物的质量和智能体轨迹的专业性,同时监控整个工作流程的token消耗,以估算模型在实际生产中的效率提升。

三、性能表现与基准测试

3.1 编程能力

根据MiniMax官方发布的数据,M2.5在多项编程评估中达到了行业领先水平。在SWE-Bench Verified测试中,M2.5得分80.2%;在Multi-SWE-Bench测试中,得分51.3%。

M2.5在跨分布 harness 的泛化能力方面也表现出色。在使用不同编程智能体 harness 对 SWE-Bench Verified 评估集进行测试时,M2.5在Droid harness上得分79.7%(优于Opus 4.6的78.9%),在OpenCode harness上得分76.1%(优于Opus 4.6的75.9%)。

一个显著改进是M2.5具备了架构师思维的能力。根据官方说明,这一特性是在训练过程中自然涌现的:M2.5在编写任何代码之前,会从经验丰富的软件架构师视角主动分解和规划项目的功能、结构 和UI设计。这种“规范先行”的编程习惯对于复杂系统工程开发具有重要价值。

3.2 搜索与工具调用

在BrowseComp和Wide Search等基准测试中,M2.5实现了行业领先的性能表现。同时,模型的泛化能力也有所提升——在面对不熟悉的脚手架环境时,M2.5表现出更稳定的性能。

为了更准确地评估真实专业任务中的搜索能力,MiniMax构建了RISE(Realistic Interactive Search Evaluation)基准。官方表示,测试结果表明M2.5在真实世界专业任务中表现优异,擅长专家级搜索任务。

在智能体任务决策方面,M2.5展现出更优的问题解决能力:它学会了用更精准的搜索轮次和更高的token效率来解决问题。例如,在BrowseComp、Wide Search和RISE等多个智能体任务中,M2.5以更少的轮次实现了更好的结果,相比M2.1节省了约20%的搜索轮次。这表明模型不仅能够获得正确答案,还能通过更高效的推理路径达成目标。

3.3 办公生产力

在办公场景方面,M2.5经过训练能够产生真正可交付的输出成果。在Word、PowerPoint和Excel金融建模等高价值工作场景中,M2.5实现了显著的能力提升。在与主流模型的对标测试中,M2.5的平均胜率达到59.0%。

四、成本、效率和市场

M2.5原生支持的推理速度达到100 tokens/秒,接近其他前沿模型的两倍。此外,强化学习训练策略激励模型高效推理和最优任务分解。得益于这三个因素的协同作用,M2.5在复杂任务完成方面实现了显著的时间节省。

具体而言,在运行SWE-Bench Verified时,M2.5平均每个任务消耗352万tokens,而M2.1消耗372万tokens。得益于并行工具调用等能力改进,端到端运行时间从平均31.3分钟减少到22.8分钟,提升37%。这一速度与Claude Opus 4.6的22.9分钟基本持平,而单个任务的总成本仅为Claude Opus 4.6的10%。

4.2 定价策略与市场反响

根据MiniMax官方发布的信息,M2.5系列包含两个版本:M2.5和M2.5-Lightning,两者在能力上完全相同,仅在速度上存在差异。

M2.5-Lightning的稳定吞吐量达到100 tokens/秒,是其他前沿模型的两倍速度,价格为每百万输入tokens 0.3美元,每百万输出tokens 2.4美元。M2.5的吞吐量为50 tokens/秒,价格减半。两个版本都支持缓存功能。

根据输出价格计算,M2.5的成本是Opus、Gemini 3 Pro和GPT-5的十分之一到二十分之一。以100 tokens/秒的速率连续运行一小时M2.5的成本仅为1美元;以50 TPS的速率运行,成本降至0.3美元。换言之,用户可以以每年10,000美元的价格让四个M2.5实例全年不间断运行。

MiniMax在官方发布中表示,设计M2系列基础模型的目标是打造能够驱动复杂智能体而无需担忧成本的模型。M2.5被定位为首款让用户无需担忧成本的前沿模型。

2026年2月12日,智谱也发布了新一代旗舰模型GLM-5。根据公开信息,GLM-5的参数规模达到744B,在编程任务上实现了对Claude Opus 4.5的对齐,擅长复杂系统工程与长程智能体任务。

在定价方面,智谱同期宣布对GLM Coding Plan套餐价格进行结构性调整,整体涨幅自30%起。值得注意的是,这是国产大模型近期以来的首次大幅提价。GLM-5海外版的价格涨幅更高: Coding plan订阅价格提高30%-60%,API调用价格提升67%-100%。

本次,智谱学习硅谷前沿模型,先期在OpenRouter上线名为Pony Alpha的测试版本,整体期待和热度延续较长。截止发稿,近五日来,智谱股价已上涨114.88%。

与之相比,本次Minimax M2.5发布相对较为低调。但股价在过去五天之间亦有34.69%的涨幅。

六、应用生态与落地情况

M2.5已全面部署在MiniMax Agent中,提供最佳的智能体体验。MiniMax将核心信息处理能力提炼为标准化的Office Skills,深度集成在MiniMax Agent中。在MAX模式下,当处理Word格式化、PowerPoint编辑和Excel计算等任务时,MiniMax Agent会自动根据文件类型加载对应的Office Skills,从而提升任务输出的质量。

用户还可以将Office Skills与领域特定的行业专业知识结合,创建针对特定任务场景的可复用Expert。截至目前,用户已在MiniMax Agent上构建了超过10,000个Expert,这一数字仍在快速增长。MiniMax自身也构建了多套针对高频场景(如办公、金融、编程)深度优化的即用型Expert套件。

在MiniMax公司内部的日常运营中,M2.5自主完成了30%的整体任务,涵盖研发、产品、销售、人力资源和财务等部门,渗透率持续上升。在编程场景中,M2.5生成的代码占新增提交代码的80%。这些内部应用数据为M2.5的能力提供了实际落地验证。

七、总结

综合来看,MiniMax M2.5作为M2系列的最新迭代,在技术框架上基本延续了M2.1的核心架构,主要通过工程优化实现了能力增强。M2.5的核心价值主张在于:以远低于同类产品的价格,提供接近顶级模型的性能表现,特别是在编程、智能体任务和办公生产力等高价值场景中。

从技术演进的角度来看,M2.5的成功发布验证了MiniMax在MoE架构和强化学习Scaling方面的技术路径。从商业角度来看,M2.5的定价策略可能会对国内大模型市场的定价逻辑产生深远影响,为智能体应用的大规模落地提供了更具经济可行性的选择。

本文来自“腾讯科技”,作者:Minimax 2.5,编辑:库丘林,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

MiniMax
我要联系
人工智能技术研发商

下一篇

中国家电出口破千亿美元,AI与安防成出海新趋势。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业