
MiniMax-M1:开源AI的新标杆,长文本推理与多模态输入的完美结合! 原创 精华
在人工智能的世界里,每一次技术的突破都可能引发一场新的变革。今天,我们要聊的主角是一个人工智能公司MiniMaxAI,它刚刚推出了一款大规模开源推理模型——MiniMax-M1。这款模型不仅在技术上取得了重大突破,更在开源领域树立了新的标杆。接下来,就让我们一起深入了解MiniMax-M1的亮点,以及它背后的MiniMax Agent,看看它们究竟有多厉害!
一、MiniMax-M1:开源大模型的新标杆
(一)什么是MiniMax-M1?
MiniMax-M1是由上海的人工智能初创公司MiniMax开发的一款开源、大规模、混合注意力推理模型。它不仅具备网页搜索功能,还能处理文本、图像、演示文稿等多种格式的多模态输入。这个模型采用了专家混合(MoE)架构,训练参数高达4560亿,每次激活约459亿参数。更重要的是,它完全开源,采用Apache 2.0许可证,这意味着任何人都可以自由使用和改进它。
(二)MiniMax-M1的“黑科技”
MiniMax为M1模型引入了“闪电注意力”技术,大幅降低了推理成本。与DeepSeek-R1相比,在生成10万token时,MiniMax-M1仅需25%的浮点运算量。此外,它采用大规模强化学习(CISPO)进行训练,仅在512块A800 GPU上训练3周,成本约为53.47万美元。相比之下,OpenAI和谷歌等竞争对手的训练成本高达数百万美元,MiniMax-M1的性价比简直逆天!
(三)MiniMax-M1的关键特性
- 混合注意力 + MoE效率:M1结合了MoE架构和闪电注意力技术,计算成本比大多数模型低75%。
- 超大上下文窗口:M1的最大亮点是其100万输入token和8万输出token的超大上下文窗口,与谷歌的Gemini 2.5 Pro不相上下。
- 多种版本可选:MiniMax提供M1-40k(中级)和M1-80k(高级)两个版本,80k版本在扩展推理和复杂任务上表现更佳。
- 扩展推理和长文本处理能力:在长文本基准测试(OpenAI-MRCR、LongBench-v2)和代理工具使用(TAU-bench)中,MiniMax-M1表现出色。
(四)MiniMax-M1的性能表现
在多个基准测试中,MiniMax-M1的表现令人瞩目:
- AIME 2024:MiniMax-M1以86.0%的最高分超越了所有专有模型,包括OpenAI o3、Claude 4 Opus和Gemini 2.5 Pro。
- LiveCodeBench:在编程基准测试中,MiniMax-M1得分65.0%,仅次于OpenAI o3和Gemini。
- SWE-bench Verified:在软件工程基准测试中,MiniMax-M1得分56.0%,大幅领先DeepSeek-R1和Qwen3。
- TAU-bench:在代理工具使用测试中,MiniMax-M1得分62.8%,超越DeepSeek和Qwen3。
- MRCR:在多轮文档分析和长文本推理测试中,MiniMax-M1得分73.4%,接近顶级商业模型,远超其他开源模型。
二、如何使用MiniMax-M1?
MiniMax-M1完全开源,代码可在GitHub和Hugging Face上找到。你也可以直接通过其聊天界面使用它:MiniMax AI - Your Ultimate AI Assistant for Intelligent Solutions。此外,MiniMax API提供了结构化的函数调用接口和其他聊天机器人API,还支持搜索、图像/视频生成、语音合成和语音克隆等功能,非常适合代理工作流。
三、MiniMax-M1实测:能做什么?
接下来,我们通过几个实际任务来测试MiniMax-M1的能力。
(一)任务1:动画模拟
提示:“生成一个红色五边形在黑色六边形内顺时针旋转的模拟。五边形内有两个球,一个蓝色,一个黄色,它们会根据物理定律在墙上反弹。每次球碰到边缘时,颜色会改变;每次它们相互碰撞时,颜色会变成两者的混合色。”
输出: MiniMax-M1在大约10分钟内生成了清晰高效的代码,并附上了详细的解释。模拟效果视觉清晰,物理准确,完全符合提示要求。不过,球有时会卡在边缘,甚至最终被弹出模拟区域,这可能是代码中的一个小错误。但总体来说,结果令人满意!
(二)任务2:实时网络搜索
提示:“本周在古尔冈有哪些脱口秀表演?”
输出: MiniMax-M1几乎立即搜索了30多个网站,包括District、All Events,甚至Facebook和Instagram上的活动列表。它收集了所有信息,并列出了本周所有脱口秀活动。虽然它没有读取或检测到活动的具体时间和地点,但它在右侧列出了所有来源网站,方便用户直接访问预订页面。
(三)任务3:逻辑谜题
提示:“四个人在晚上过桥,只有一支能持续15分钟的火炬。Alice过桥需要1分钟,Ben需要2分钟,Cindy需要5分钟,Don需要8分钟。每次最多两人过桥,且以较慢者的速度为准。他们如何在15分钟内全部过桥?”
输出: MiniMax-M1在大约2分钟内(精确地说是125.2秒)给出了答案:
- Alice和Ben一起过桥(2分钟)。
- Alice独自返回(1分钟)。
- Cindy和Don一起过桥(8分钟)。
- Ben独自返回(2分钟)。
- Alice和Ben再次一起过桥(2分钟)。
总结:MiniMax-M1的逻辑推理过程非常精准,直接给出了正确答案,没有出现任何回溯。虽然在某些地方思考时间稍长,但整体表现令人印象深刻。
四、MiniMax Agent:AI代理的未来
MiniMax Agent是MiniMax的另一大亮点,目前处于测试阶段,但它已经展现出了惊人的能力。我们用一个任务来测试它的能力:
提示:“创建一个互动网站,展示印度的虚拟之旅。网站需要显示国家地图,标注各州及其首府。点击某个州时,会放大显示该州的著名景点和地标。点击地标图标时,会弹出一个侧边栏,显示实际图片、位置、参观时间和门票价格。用户可以选择多个地标,网站会生成一个实际的行程计划,包括所需天数和基于谷歌地图的交通时间。”
输出: MiniMax Agent出色地完成了任务。它不仅找到了信息,添加了文本和图片,还获取了API密钥,访问了谷歌地图和其他应用,构建了整个系统,并进行了测试。整个过程仅用了20分钟,还提供了详细的文档和测试结果。
你可以在这里体验完整的网站:Created by MiniMax Agent。
五、MiniMax-M1:开源AI的新标准
MiniMax-M1的出现,标志着开源AI领域的一次重大飞跃。它不仅是一个混合注意力MoE模型,还结合了规模和计算效率。凭借惊人的100万token上下文窗口,MiniMax-M1能够在长文本推理和文档理解方面表现出色。尽管训练成本极低,但它在标准基准测试中的表现却毫不逊色,甚至在某些方面超越了竞争对手。
MiniMax Agent同样令人印象深刻,它能够独立创建演示文稿、网站和应用程序。聊天界面和实时更新功能让用户仿佛置身于“即时编码”的环境中。总的来说,MiniMax-M1为开源模型开发树立了新的标准,融合了技术复杂性、经济效率和易用性,为下一代AI聊天机器人和代理奠定了强大的基础。
本文转载自Halo咯咯 作者:基咯咯
