
本命周!MiniMax M1有多猛?网友:仅用40k思考预算就干翻Gemini,实测:真·超DS! 原创
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
大模型的内卷远远没有结束了。今天凌晨,MiniMax 扔出了一记重磅炸弹——MiniMax-M1。
先来看看,M1 有多猛?
- 上下文长度 100 万 tokens(这里指的输入,达到全球最高水平),秒杀 DeepSeek R1 的 8 倍;
- 激活参数 45.9 亿/次,精度不打折;
- 计算效率较 DeepSeek 提升 4 倍,生成 10 万token只用后者 1/4 的算力;
- 思维预算最高 80K,真正的「长考型」AI;
- 全面超越 Qwen3-235B、DeepSeek-R1,尤其擅长复杂编程、工具使用与长文本理解。
如果数字看着头疼,可以看下省流版:
一、长推理能力:实现具有实际生产力的代码任务,并具备竞赛级的数学解题能力。
二、强工具调用能力:稳定处理包含长链路思考与工具调用的复杂任务,是Agent时代的优秀基座模型。
三、百万token长上文支持:提供卓越的海量信息检索与分析能力,在超长多轮对话中保持强大记忆力。
“省省流”版本,面向三个场景:生产级别环境、Agent工具调用、超长上下文的复杂任务。
多项指标屠榜,超越 DeepSeek R1
MiniMax-M1,这次除了两个版本,即,输出 token 方面分别对应 40K 和 80K 的“思维预算(thinking budget)”。
在 Minimax 在 Gihub 上放出的技术报告中显示——
标准评估基准方面,MiniMax-M1 显著优于当前主流开源大模型,如 DeepSeek-R1 和 Qwen3-235B,特别是在复杂软件工程、工具使用、长上下文处理等任务中表现突出。
下图是核心的基准表现,比如扩展思维能力、数学、编程、推理与知识、软件工程、长上下文、工具调用智能体、事实问答、通用助手任务等。(下表为 80K 与 40K 版本对比,其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等):
图片
为了便于大家查看,这里特别制作了一组核心对比。
图片
从上图可以看到,MiniMax-M1 尤其在长文本理解、软件工程与多工具使用方面有明显领先。
如何做到的?技术亮点一览
省流版:
1.Hybrid-MoE 架构 + Lightning Attention:少激活,大聪明,既节省算力又保证推理力。
2.大规模 RL 训练 + 自研 CISPO 强化学习算法:不是靠刷网页堆语料,而是真刀真枪去练“脑力”。
MiniMax-Text-01 拥有 4560 亿参数,每个 token 激活参数为 45.9 亿。延续其设计理念,M1 模型原生支持长达 100 万个 token 的上下文长度,是 DeepSeek R1 的 8 倍。
此外,得益于 lightning attention 机制,M1 在推理时大幅降低计算开销——例如在生成长度为 10 万 token 的任务中,M1 所需的计算量仅为 DeepSeek R1 的 25%。
这使得 M1 特别适用于需要处理超长输入、进行深度思考的复杂任务。
那么,为什么 M1 用更少的参数量 456B就做到了超越 DeepSeek R1 的水平?究竟怎么训练的呢?
官方介绍到,M1 通过大规模强化学习(RL)训练,覆盖从传统数学推理到基于沙盒环境的真实世界软件工程等多种任务。为此,Minimax 团队开发了一套高效的 RL 扩展框架,亮点包括:
- CISPO 算法:提出了一种新颖的策略——不裁剪 token 更新,而是裁剪重要性采样权重,在多种 RL 变体中表现更优;
- 混合注意力设计:天然增强 RL 训练效率,并解决了混合架构在扩展过程中的一系列独特挑战。
此外,MiniMax-M1 开放了:
- HuggingFace 权重下载(40K / 80K 两种版本)
- vLLM 快速部署指南(企业用,真香)
- Transformers 接入文档
- Function Calling(函数调用)支持
- 支持联网搜索的 Chatbot / API。
- 甚至还提供通过 MCP 使用以下能力:视频生成、图像生成、语音合成、声音克隆。
Agent 能力实测:推理比DS-R1更快!
登录 MiniMax 的对话界面,你就会发现相当嚣张的问候语:
Ask anything!No question too long,no query too complex.(尽管来问!没有问题太长,也没有提问太复杂。)
图片
关于 M1 的实测案例,MiniMax 在官方媒体账号上有放出不少。这里小编更关心的 Agent 场景下的表现。
正如前文所提到的,在 TAU-bench 方面, M1-80k 取得了 62 分的结果,几乎是 Qwen-32B 得分的两倍,同时也超越了 Deepseek R1 的 53.5 分。
一位 X 网友对于 M1 在零售场景的表现大为惊叹:
“在 TAU-bench 零售场景中,仅用 1M 上下文窗口 + 40K 思维预算,就超越了 Gemini 2.5 Pro —— 真是惊艳!”
图片
小编这里科普一下,这里 TAU-bench retail 测试,其实是一个企业 Agent 的能力测试,它让大模型完成一个“企业智能助理”或“客户服务智能代理”在零售场景下的真实任务,比如:
- 分析库存和销售数据
- 查找和调用特定工具(比如退货系统、订单查询、商品比价 API)
- 理解复杂政策和规则文档(如退换货、会员积分、商品上下架)
- 制定合理的下一步行动(比如建议补货、替代商品、发优惠券)
既然都说到这里了,小编忍不住想实际动手测一测。Agent 能力测试题如下:
复制
你是一名智能客服代理,负责处理零售用户的退货请求。你可以使用以下工具来完成任务:
【你可以使用的工具】
1. 查询订单状态:`get_order_info(order_id)` → 返回下单时间、状态、商品信息、用户ID
2. 查询用户积分:`get_user_points(user_id)` → 返回当前积分余额
3. 申请退款:`create_refund(order_id, amount)` → 向用户发起退款流程
4. 发放积分:`grant_points(user_id, amount)` → 给用户发放积分
【退货政策文档】
- 所有商品支持15天无理由退货。
- 超过15天需用户提供合理理由并经人工审核。
- 特殊情况可发放最高不超过20元等值积分补偿。
- 咖啡机类产品需保留原包装和配件,状态良好。
【任务目标】
请处理用户的退货请求,合理使用工具,做出符合政策的判断,并以自然、温和的语气生成一段客服回复。
【用户输入】
Hi,我想退掉我上个月买的咖啡机(订单号:#8492035),但是系统说退货时间已过。我刚生完孩子,没时间处理。请你帮我看能不能特殊处理一下,或者给点补偿?
请按以下格式输出:
1. 使用了哪些工具?输入与输出是什么?
2. 你的判断逻辑是什么?
3. 最终给用户的客服回复是什么?
问 M1、Gemini2.5 Pro、DeepSeek R1 这三款同样的问题。来看下 表现。
先说结果:三款模型的回答可以说都挺准确。但差距在于:
一、思考过程和速度上。
DeepSeek 明显是思考过程最长最多的,光思考就占了一分半钟。
图片
M1 思考过程相当 37.8s,与 Gemini 2.5 Pro 时长相当(后者只能自己计时,从思考的token长度上看是相当的。)
图片
二,输出答案质量上。三者都答对了。
但是,不得不承认,Gemini 生成的结果更为让读者赏心悦目一些,只能说领先模型对于生成结果的细致包装程度还是值得学习的。
M1 答案如下:
图片
下面是Gemini 2.5 Pro预览版的输出效果——
图片
然后是 DeepSeek-R1 的答案,给出答案中的判断逻辑和 Gemini 2.5 Pro比较类似。
图片
图片
可以说Agent调用能力方面,Minimax M1 的优势在于思索很快,答案精简一些。Gemini 2.5 Pro 和 DeepSeek R1 可以说不相上下,但后者输入速度更慢一些。
怎么看呢?真要是用在生产环境中,在答案都对的情况下:谁最省 token 谁是最合适的解~
还有歪果仁惊叹 M1 的 LiveCode 能力的。小编没有测试哈,如果各位测好了可以评论区反馈一下。
图片
不过小编,倒是测了一个“抓娃娃”的小游戏。虽然丰富性上差一些,可玩性上倒是超过了 Gemini 2.5 Pro。
M1 的效果如下:简单到只有个娃娃,但说抓就抓到。
图片
而 Gemini 2.5 生成画面更为精致,生成的画面也更为逼真,但是小编发现,真的是一次都没抓到过娃娃。难道是 Gemini 更懂得“抓娃娃”的商业逻辑~
图片
最后,还有一个 one more thing,这一周 MiniMax 也打算来个开源周。看网友们呼声最高的还是:音视频模型的开源。静待深夜的炸弹吧!
图片
图片
本文转载自51CTO技术栈,作者:云昭
