MiniMax-M1接棒DeepSeek,中国AI走向高性价比创新

发布于 2025-7-1 07:13
浏览
0收藏

DeepSeek R1的发布让整个AI界重新思考成本与性能的关系。用相对较低的成本训练出媲美GPT-4的模型,这种可能性正在变为现实。而现在,中国AI公司MiniMax又悄然交出了另一份答卷。

这家因海螺(Hailuo)AI视频而声名鹊起的公司,刚刚发布了他们的最新大型语言模型MiniMax-M1。M1完全采用Apache 2.0许可证开源,任何企业和开发者都可以免费使用。

更有趣的是训练成本:仅用53.47万美元就完成了完整的强化学习训练。MiniMax-M1的成本控制能力真是令人瞩目。

1. 低调的技术独角兽

MiniMax成立于2021年,创始人闫俊杰的履历堪称"学霸模板":东南大学数学本科、重庆邮电大学通信工程硕士、中科院自动化所博士、清华大学计算机系博士后。

他曾在商汤科技担任副总裁、研究院副院长及智慧城市事业群CTO,是商汤通用智能技术的核心负责人。

可以说,MiniMax的核心团队有着深厚的技术积淀。

从2022年的天使轮开始,经过多轮融资,直至2024年阿里巴巴领投的6亿美元(估值超过25亿美元),短短两年多时间,MiniMax就跻身独角兽行列。

有很多人可能不知道MiniMax,但是可能都认识他们的海螺视频(Hailuo AI)。

这款AI视频生成工具以出色的视频质量和逼真效果在全球范围内获得了广泛认可,目前已经吸引了遍布180个地区的创作者使用。

从视频生成到大语言模型,MiniMax正在构建一个多模态的AI生态。

2. 如何用更少的钱做更多的事

那么,MiniMax是如何做到用低成本来训练出一个高质量大模型的呢?

主要在两个方面:巧妙的架构设计和高效的算法优化。

2.1 混合注意力的巧妙组合

一般的模型在处理长文本时,处理速度会变得很慢,答案就在于传统Transformer架构的 "quadratic computational complexity" 问题。随着文本长度增加,计算量增长越来越快,就像滚雪球一样。

MiniMax-M1的解决方案很有意思:他们采用了一种叫 "Lightning Attention" 的线性注意力机制,但没有完全抛弃传统方法。具体来说,每7个 "Lightning Attention" 块后面跟着1个传统的注意力块,形成了一个7+1的混合架构。

从技术参数来看,这个模型总共有4560亿参数,但每次只激活459亿参数(约10%),这就是MoE(专家混合)架构的魅力。

结果是什么呢?在生成长度为 64K token 时,M1 消耗的 FLOPs 不到 50%,而在长度为 100K token 时,消耗的 FLOPs 约为 25%。这种显著的计算成本降低使得 M1 在推理和大规模 RL 训练中都更加高效

MiniMax-M1接棒DeepSeek,中国AI走向高性价比创新-AI.x社区

2.2 CISPO算法的效率提升

如果说混合注意力解决了"怎么算"的问题,那么CISPO算法就解决了"怎么学"的问题。

使用CISPO算法,MiniMax-M1只需要约50%的训练步数就能达到与传统DAPO算法相近的性能。

这直接转化为了成本优势。具体来说,使用512张H800显卡,训练3周,总成本仅为53.47万美元。

使用不同的 RL 算法对 Qwen2.5-32B-base 模型进行训练,并在 AIME 2024 基准上报告性能。CISPO 在相同训练步数的情况下显著优于 DAPO 和 GRPO。

这种效率提升,正是MiniMax能够以相对较低成本训练出高质量模型的关键所在。

MiniMax-M1接棒DeepSeek,中国AI走向高性价比创新-AI.x社区

CISPO 在 AIME 2024 上的表现与 GRPO 和 DAPO 的比较,基于 Qwen2.5-32B-base。CISPO 在相同训练步数的情况下性能优于 GRPO 和 DAPO,并且使用 50%的训练步数就能达到与 DAPO 相当的性能

3. 专注实用性的表现

从各项测试来看,MiniMax-M1展现出了明显的"实用主义"倾向。

在软件工程任务上,MiniMax-M1在SWE-bench Verified测试中达到了56%的成绩。它非常接近DeepSeek-R1-0528的57.6%,而明显超过了Qwen3-235B的34.4%。对于开发者来说,这意味着MiniMax-M1可以成为一个相当不错的编程助手。

长文本理解是另一个亮点。得益于100万token的上下文支持,MiniMax-M1在处理长文档时表现出色:在OpenAI-MRCR(128k)测试中达到76.1%,在100万token的测试中也能保持58.6%的表现。这对于需要处理大量文档的企业用户来说,无疑是个好消息。

在工具使用能力方面,TAU-bench测试显示MiniMax-M1在航空业务场景能达到62%,在零售场景达到63.5%。这表明它在实际业务应用中具备了不错的适应性。

当然,MiniMax-M1也有自己的短板。在数学推理等任务上,它的表现相对一般:AIME 2024测试中为86%,AIME 2025为76.9%,与最新的DeepSeek-R1-0528等模型仍有差距。

4. 技术社区的反响

MiniMax-M1发布后在国际技术社区引发了广泛关注。Hacker News等技术论坛的开发者们对其混合注意力机制和CISPO算法表示认可,认为技术报告值得深入研究。特别是53.47万美元的训练成本,被视为成本控制的重要突破。

有趣的是,硬件门槛成为了热门讨论话题。虽然完整运行需要8张H200显卡(约25万美元),但通过Q4/Q8量化技术,可以将硬件需求降至可以接受范围。这引发了关于本地部署可行性的热烈讨论。技术社区普遍认为,随着硬件的发展,本地运行高质量LLM将在几年内变得更加经济实用。

5. 中国AI的新趋势

从DeepSeek R1到MiniMax-M1,我们看到了中国AI发展的新趋势。

MiniMax-M1进一步推进了大模型成本革命,大幅降低的训练成本让更多团队有机会进入AI领域。两个模型都选择了开源策略,正在改变全球AI技术的竞争格局,当高质量AI模型可以被任何人免费使用时,创新门槛被大大降低。更重要的是,中国AI公司不再单纯追求基准测试的极致表现,而是更关注实用性、成本效率和技术普及,这种理念转变正在改变整个AI行业的竞争规则,让AI价值惠及更多企业和开发者。

本文转载自​​AI取经路,作者:AI取经路


收藏
回复
举报
回复
相关推荐