
“如今社交媒体和电视上充斥着这类闹剧。事实上,那些过去认为必须保持一定教养、分寸感并尊重公职的人,现在似乎对此毫无廉耻之心,一切已荡然无存。”

2026年春节前夜,MiniMax厚爱上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”伸开密集发布与营销攻势,这款定位为“原生Agent坐褥级模子”的居品,厚爱加入这场被业界称为“AI诸神之战”的竞争。
尽管有着编程、器具调用、办公等坐褥力场景大家SOTA得益,这家在老本阛阓备受瞩指标公司却思抛开参数限度与模子榜单的简便比拼,而是在科技圈掀开另一种叙事:重新界说Agent2.0期间。
10B激活参数跑出旗舰得益
在编程智商方面,M2.5在巨擘榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显赫进步;在Multi-SWE-Bench等多话语复杂环境中超过Opus 4.6,达到了行业最佳的水平。更紧迫的是,模子展现出“原生Spec智商”——在编码前主动拆解架构与功能野心,更接近委果架构师的责任形态。
器具调用和搜索智商方面,模子或者自动科罚复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次奢华获得了更优的成果,相较于上一代模子阐明进步20% ,达到了行业顶尖水平。

办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中获得了显赫的智商进步,在测评框架GDPval-MM与主流模子的对比获得了 59.0%的平均胜率。
极致推理重构Agent经济
性能以外,M2.5的另一中枢亮点在于极致的推理速率与成本截止。M2.5-lightning版块支捏100 TPS以上输出速率,是主流模子的2倍傍边;输入价钱约0.3好意思元/百万Token,山西配资门户输出约2.4好意思元/百万Token。按每秒输出100 Token野心,连结运转一小时成本约1好意思元;若按50 Token野心,成本约0.3好意思元。
这意味着1万好意思元表面上可支捏4个Agent连结责任一年。MiniMax方面以为,当性能与成本不再组成阻挡,Agent限度化部署的经济模子将发生压根变化。
盛达优配在Vibecoding(氛围编程)越来越火确当下,M2.5的极致性价比可谓平直界说了委果寰宇责任王者。
独创Agent RL辅助高速进化
昔日108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified得益从69.4进步至80.2,跨越弧线在同行中尤为笔陡。团队将这一跃迁归因于大限度Agent强化学习(RL Scaling)。
其自研Forge框架通过解耦熏陶引擎与Agent,兑现对苟且Agent脚手架和器具的泛化优化,并通过异设施度与树状并吞计策兑现约40倍熏陶加快。同期,在算法层面经受CISPO优化与进程奖励机制,缓解长转折文场景中的信用分派问题,并将“任务委果耗时”纳入奖励函数,在成果与反馈速率之间获得均衡。

M2.5已于2月12日在 MiniMax Agent上线,并于13日大家开源支捏腹地化部署。不到一天,来自全寰宇的用户仍是在MiniMax Agent上构建了1万多个内行,且仍在快速增长。
MiniMax示意,但愿在捏续进步模子智商的同期,构建一个可捏续膨胀的Agent生态-Agent Universe。当模子智商、泛化性和成本王人不再是瓶颈1号配资,Agent浸透到责任和生计的各个旯旮——从编程、办公到创作、文娱,大幅促进Agentic利用的进一步发展。
恒正网配资恒正网配资胜亿优配胜亿优配优配官网盈昌优配提示:文章来自网络,不代表本站观点。