刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界

发布于 2025-7-17 12:07
浏览
0收藏

OpenAI、Google DeepMind等科研力量纷纷推出具备视觉-语言理解能力的 MLLM 模型。这些模型在图像描述、视觉问答、目标识别等任务上表现惊艳。但是若进一步观察其在动态场景下的表现,例如物体运动、相对方向、空间构造变化等复杂空间推理任务,就会发现它们的能力尚不成熟。

当前的主流 MLLM 训练策略多聚焦于静态图像配对和语言生成,而缺乏对物体移动、时序变化、物理交互等空间维度进行系统建模的机制。这直接导致模型虽能“看图说话”,却无法“理解空间”,更难以模拟现实世界中的感知与判断。

空间推理的缺口为何重要?

空间推理不仅关乎技术挑战,更是模型落地应用的核心门槛。无论是机器人路径规划、自动驾驶场景理解,还是智能教育和增强现实交互,准确理解空间结构与动态变化都是不可或缺的能力。一旦模型无法识别物体的相对位置、方向或运动趋势,其推理结果便失去了对真实世界的可靠映射。

这个缺口不仅影响模型的泛化能力,也限制了多模态 AI 的认知智能演化。因此,补足空间推理能力,构建具备“真正理解力”的 AI,是推动下一代智能体跃升的关键一步。

M2-Reasoning:一次通用推理与空间推理的融合突破

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

就在此背景下,由 Inclusion AI 与蚂蚁集团联合发布的 M2-Reasoning-7B 成为焦点。这不是一次简单的模型堆叠,而是一场融合通用认知与空间感知能力的架构重塑。该模型以“统一推理体系”为核心理念,从底层数据构建到策略设计全面强化模型在两大维度的推理表现。

它的“冷启动 + RLVR 强化学习”双阶段训练机制,以及“逻辑链生成 + 指令奖励”组合策略,不仅实现了对复杂多模态任务的稳态学习,更在 8 项公开基准测试中刷新了领域 SOTA(最先进水平),实证了其推理广度与精度的协同跃迁。

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

图1 M2-Reasoning-7B的基准性能。

值得关注的是,M2-Reasoning 背后的团队本身就是 AI 开源生态中的先锋力量。Inclusion AI 是蚂蚁集团旗下专注于通用人工智能(AGI)研究的机构,强调公平、透明、可复现的技术路径,其 RL Lab 与数据智能实验室在多模态推理、强化学习领域积累深厚。团队成员来自清华大学、蚂蚁集团超级计算团队等单位,在模型结构设计、数据工程与交互推理等方面具备跨领域优势。

在 M2-Reasoning 中,他们不仅融汇了 Qwen 系列语言模型的建模优势,还大胆探索了视觉推理的细粒度评估机制,并提出了指数衰减数值奖励(EDNM)等创新方式,为当前 MLLM 推理框架带来结构性变革。

模型主页:https://huggingface.co/inclusionAI/M2-Reasoning

源代码仓库:https://github.com/inclusionAI/M2-Reasoning

组织主页:https://github.com/inclusionAI

01 M2-Reasoning-7B 模型概览

在多模态大语言模型迈向认知智能的新阶段,M2-Reasoning-7B 不再只是一个模型参数堆叠的产物,它像是一套“系统化推理引擎”,打通了通用逻辑与空间理解的核心通路。

模型定位与核心能力

定位上,M2-Reasoning-7B 是一款专门为通用推理与空间推理而设计的中型多模态大语言模型(MLLM)。与传统模型不同,它不仅要“看懂图文、说出答案”,更需要“理解抽象逻辑”、“洞察动态空间”,将模型从语言生成器提升为现实感知者与思维模拟者。

它的能力横跨两个维度。

通用推理:包括数学、逻辑、科学等抽象任务,能够处理复杂的因果链与语义演绎过程。

空间推理:能理解图像与视频中物体的位置、大小、方向、出现顺序等时空逻辑,模拟真实世界中的动态交互结构。

也就是说,它既能处理“为什么苹果落地”,也能判断“哪个物体先从门口出现”。这份跨模态认知,正是 MLLM 迈向智能体化的关键转折。

两大关键创新

高质量数据管线为模型思考注入“真实逻辑血液”

不只是数据多,更重要的是数据“懂思考”。

M2-Reasoning 的数据构建围绕“逻辑轨迹”与“空间语义”双线展开,打造出一个兼顾抽象与感知的训练语料库。

通用推理数据:引入链式思维生成机制(Chain-of-Thought),使用 WeThink-VL-7B 模型进行多样化推理合成,同时采用 Qwen2.5 系列模型进行质量筛选,评估结构清晰度、认知负载与验证深度,最终筛选出 168K 条高质量推理链。

空间推理数据:设计了涵盖图像和视频的10类任务类型(如相对距离、出现顺序、绝对尺寸等),数据采集依赖真实场景与模拟环境,并通过自动标注与模型-人工混合质量验证,构建出精度与语义并存的数据体。

数据增强机制:将选择题转化为填空题、是非题;添加格式指令;打散选项排列规律,避免模型过拟合,这些策略让数据更“活”、更“难”、更具真实学习价值。

这条数据管线的本质是:不是让模型“背答案”,而是训练它“如何思考”,一步步推导而非一跃而解。

动态多任务训练策略为模型赋予“学习策略脑”

在训练环节,M2-Reasoning 不再一口气学习所有任务,而是像人类一样分阶段、逐步进阶。

冷启动微调(SFT):先用结构化的高质量数据稳定模型输出与基础推理逻辑。

强化学习阶段(RLVR):采用 GRPO 优化器,引入任务奖励机制,奖励不仅评估答案是否正确,还关注格式是否规范。尤其在空间推理任务中,创新提出 EDNM 奖励函数,以指数衰减方式评估数值偏差,引导模型稳定向目标值逼近。

课程式采样(Curriculum Sampling):根据任务难度排序训练样本,让模型从“入门题”开始,一步步掌握“高阶推理”,避免训练初期陷入复杂逻辑误区。

动态超参调整:包括对中等难度样本加权(因其信息最丰富)、KL散度系数余弦退火等策略,确保模型在不同难度区间都能稳定、高效地学习。

这一训练策略的核心精神是:让模型像学生一样,有思路、有节奏、有反馈,真正“理解”每一阶段的推理过程,而不是单纯地“跑完所有数据”。

02 数据构建策略

在训练一个真正懂推理的多模态模型之前,数据,不只是基础,更是灵魂。M2-Reasoning-7B 的诞生,正是基于对数据构建的深入理解与精密布局。研究团队没有拘泥于现有开放数据集的局限,而是设计了一套全流程的数据管线——既能激活模型的逻辑思维,又能训练它识别空间世界中的动态交互。

让模型“学会思考”的第一课

在这个模块里,团队围绕“通用逻辑能力”的培养展开布局,包括冷启动微调数据与强化学习阶段数据两大部分。

冷启动阶段:从逻辑链出发,构建有结构的思维轨迹

他们并没有简单使用开源的图文推理数据,而是通过链式思维生成系统(CoT pipeline),从多个开放数据源中提取多样推理任务——几何问题、因果推导、视觉逻辑……再使用 WeThink-VL-7B 模型生成多条推理链。

为了确保思维轨迹的质量,他们制定了一整套评估标准:

  • 答案准确性
  • 推理结构完整性
  • 认知引导节奏
  • 验证环节的丰富度

通过 Qwen2.5-7B 模型进行自动评估,并辅以人工审查,最终构建出 168K 条高质量推理数据。这些数据不仅“有答案”,更“有过程”,真正让模型从逻辑路径中学习思考。

强化学习阶段:挑选“既难又值练”的题目

在 RLVR 阶段,模型需要面对更复杂的任务。团队首先对每条训练样本进行“难度评分”——基于多个模型回答的准确率计算任务难度,剔除过易或过难的极端样本,保留最具信息密度的数据。

这套方法的精髓在于:让模型学习“有挑战性的任务”,而不是“可以轻松猜测的题目”。最终留下的样本,正是那些能激发模型推理潜力的关键训练素材。

空间推理数据赋予模型“视觉理解力”的另一只眼睛

从图像到视频,从静态到动态,空间理解任务可谓最具挑战性。M2-Reasoning 团队在这一块的设计尤为扎实。

从像素到三维结构的自动注释

他们先对真实图像进行处理,提取深度图、分割图、法向图、相机参数等底层视觉数据,进一步构建出三维点云、物体边界框与标签信息。而在模拟数据中,则采用内建注释直接生成结构化标签。

基于这些视觉元素,团队设计了10种任务类型,例如:

  • 相对距离判断
  • 出现顺序识别(视频)
  • 物体大小感知
  • 绝对位置定位……

每类任务都有专门的问题生成逻辑与筛选机制,确保语义清晰、关系明确、目标合理。例如在“Relative Distance”任务中,模型必须判断哪个物体离参考点更近——而这背后已排除多实例物体、平面结构干扰等可能导致歧义的因素。

数据增强与质量验证:让模型“看清每一处细节”

空间数据不仅结构复杂,还容易产生偏见。因此团队针对每条数据进行了三重增强。

问题类型转换:多选题转为填空题或是非题

指令增强:嵌入单位要求、格式规范,引导模型学习规范表达

分布扰动:打乱选项顺序,消除模型对“选项位置”的盲目依赖

质量验证方面,他们结合 Qwen2.5-VL-32B 模型进行自动评分,并辅以人工抽样评估,确保每条样本都在认知层面具备学习价值。

数据配置总览:从入门到高阶,全周期覆盖

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

图2:冷启动和RLVR期间的数据配置概述

整个训练过程分为两个阶段。

冷启动阶段:使用330万图文对 + 290万纯文本数据进行模型激活,其中包含大量非推理数据用于保持模型语言基础能力。

RLVR阶段:引入结构化小规模数据(尤其是数学、科学与空间任务),专注推理能力的精细调整与优化。

这套从低阶到高阶、从静态到动态的训练路径,像一条课程设计严谨的智能成长之路。从启蒙、探索,到认知升维,为 M2-Reasoning 模型奠定了深厚的推理基础。

03 训练方法详解

在通用与空间推理融合的大模型设计中,训练策略的巧思往往决定了模型的思维广度与认知深度。M2-Reasoning-7B 的训练过程不仅是一场算法层面的博弈,更是一套模拟人类学习行为的精密教学系统。接下来,我们将揭开它背后的教学逻辑,看看如何一步步把“泛感知”的模型打磨成“能思考”的智能体。

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

图3: M2 Reasoning的模型架构基于Qwen2.5-7B语言模型构建,并包含一个本地分辨率视觉编码器。值得注意的是,该图省略了通常用于连接视觉编码器和语言模型的MLP投影仪。

双阶段训练框架:先打地基,再造思维

在 M2 的架构里,训练分为冷启动和强化学习两个阶段,每个阶段都有不同的教学目的与技术手段。

冷启动监督微调阶段

这个阶段的核心目标是“激活模型潜能,稳定输出结构”。M2 团队使用高质量的通用推理数据,通过有监督的方式进行微调,确保模型能理解结构化的推理路径,并形成稳定的<think> 和 <answer> 格式。这不仅为后续 RLVR 奠定语义基础,也避免模型在早期就陷入逻辑混乱。

多任务 RLVR 强化学习阶段

进入第二阶段,模型开始接受真正“开放世界”式的训练。此时引入了Reinforcement Learning with Verifiable Rewards(RLVR),目标是引导模型建立正确的推理方式,而不仅仅是“猜对答案”。M2 采用 GRPO 优化策略,并引入了任务奖励和格式奖励的双重信号,强化推理过程与输出规范的双向表现。

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

更妙的是,他们还改进了 GRPO 的损失函数结构,引入了动态超参数机制,让模型训练过程可随任务复杂度调整,最大化推理精度与样本效率。

课程式采样与动态优化:模仿人类的学习节奏

M2-Reasoning 并不强迫模型一次吃下所有知识,而是采用“逐步进阶”的策略来构建训练流程。

课程式采样策略

灵感源自人类学习行为——先学简单概念,再慢慢进入难题。M2 团队离线计算了所有任务的难度分布,然后将样本按难度升序排序,构成一个层级递进的“课程体系”。在 RLVR 阶段,模型从“启蒙题”出发,逐步接受更复杂的推理挑战,实现推理能力的自然扩张。

动态超参数与余弦退火机制

而在采样之外,训练过程中的参数控制也精妙得如同“量身定制”。他们引入了优势加权机制——对于“最有信息密度”的中等难度任务,赋予更高训练权重;而对于训练曲线的稳定性,则采用余弦退火策略动态调整 KL 惩罚系数,让模型既能稳住简单任务,也敢于探索复杂推理的边界。

这一组合拳让训练节奏不再僵硬,而是与模型认知成长同步,真正实现了“推理驱动的教学反馈”。

任务专属奖励机制:让模型更懂“怎么思考”与“答得对”

M2 不只是评估“答对了吗”,还关心“有没有想清楚”。

通用推理:精准匹配机制

在数学和逻辑任务中,模型需要面对各种不同格式的回答:有选择题、有填空题、有数学表达式,还有自然语言答案。M2 团队构建了一套精确的奖励函数体系,涵盖字母匹配、数值匹配、字符串抽取与表达式验证(结合 Math-Verify1 工具),并考虑了格式容错性(区分大小写、标点等),以实现对“答案正确性”的全面捕捉。

空间推理:EDNM 平滑奖励机制

而在空间任务中,面对那些需要预测“距离”、“大小”、“深度”等数值的填空题,传统的对错判断显得太粗糙。为此,M2 提出了 Exponential Decay Numeric Matching(EDNM)机制。

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

图4:不同超参数λ值的EDNM奖励函数的可视化。

它是一种平滑的连续奖励函数——即使预测值偏离真实答案,也会根据相对误差给予逐渐衰减的奖励。这避免了模型在早期训练中因“一次答错而无奖励”而丧失学习动力,同时也鼓励模型向更精确的方向稳步优化。

EDNM 的最大优势是:它为“空间感知”提供了柔性引导,而不是刚性打分,适应了多模态学习中的不确定性与模糊边界。

04 实验与性能评估

当一个模型试图既理解语言中的抽象逻辑,又洞察图像与视频中的空间信息时,我们期待的不只是“准确回答”,而是看它是否真正“具备推理智能”。M2-Reasoning-7B,正是在这一标准下交出了一张令人瞩目的成绩单。

通用推理评估

在数学与逻辑领域,M2-Reasoning-7B 参与了六项权威基准测试,包括 MathVista、MathVision、MathVerse、DynaMath、WeMath 和LogicVista。这些任务考验的不只是算术能力,更要求模型理解复杂公式、图文结合的题目语境,以及多步骤的逻辑演绎过程。

成果令人振奋:在所有测试中,M2-Reasoning 以 45.0 的平均得分刷新了同类基础规模 MLLM 的最高纪录,击败 InternVL3-8B、WeThink-VL-7B 等一众主流模型。其中,在 MathVista 和 DynaMath 这两个难度最高的子项中,它分别获得 75.0 和 26.8 的顶尖分数,展现出对复杂数学推理任务的扎实理解力。

或许更有价值的是,它不仅在结果上领先,更在思维结构上表现出了清晰的推理链条。这意味着,它不仅“知道答案”,更“理解过程”。

刷新八项 SOTA!蚂蚁集团M2如何重塑多模态推理边界-AI.x社区

表1 MLLM在一般多模态推理基准上的性能。基本规模MLLM的最佳和次佳结果分别以粗体和下划线表示。∆表示相对于相应基础模型的性能改进。所有分数均来自OpenCompass排行榜。

空间推理评估

接下来进入视觉空间领域,M2-Reasoning 在图像推理基准 CV-Bench 和视频想象力评估 VSI-Bench 上也展开了全面测试。

在 CV-Bench 中,它夺得平均分 82.3 的第一名,略超 InternVL3-8B 的 82.0。其中,Relation(关系判断)高达 92.8,Depth(深度理解)为 89.3,Distance(距离识别)达 84.3,均为当前最优表现。这代表它在二维图像中准确识别物体的相对结构与空间布局,具备“空间建模”能力。

而在更具挑战性的视频空间想象基准 VSI-Bench 中,M2-Reasoning 获得平均分 42.3,仅次于大规模模型 Gemini-1.5-pro,并优于 InternVL3-8B。这一成绩并非偶然,它在 RoomSize(房间大小判断)和 RelativeDirection(方向判断)两个子任务上创下新纪录,展现出对动态时空逻辑的出色理解力。

值得一提的是,它在对物体大小、出现顺序等细粒度问题上也表现稳健——这类任务通常难以捕捉明确标签,但 M2-Reasoning 的推理能力使其在“含糊的世界中也能做出清晰判断”。

SOTA 对比分析

虽然 M2-Reasoning-7B 的参数量属于基础规模,但它在多个基准测试中成功挑战甚至超越了大模型如 GPT-4O 与 Gemini-1.5 的部分表现,特别是在结构清晰的推理任务中展现出了“效率与深度并重”的特色。

这揭示了一个关键趋势:在 MLLM 的新时代里,优秀模型不再只是靠规模取胜,更依赖于合理的数据设计、任务增强机制与策略化训练方法。而 M2 的双轨推理融合、多维奖励机制和课程式学习路径,就是它在众多模型中脱颖而出的“秘密武器”。

05 结论与展望

在经历了数据构建、训练策略和实验验证的一系列技术剖析之后,我们终于可以坐下来看看这篇论文的核心价值所在——M2-Reasoning-7B 究竟带来了什么改变,它的未来又将走向哪里。

一次多模态推理的协同跃迁

M2-Reasoning-7B 最大的贡献在于,将通用逻辑推理和视觉空间理解这两个原本割裂的能力,通过统一架构整合为一个高效协作的推理系统。

这不是简单的功能叠加,而是一种从数据、策略到模型表达的深度融合。它用高质量、结构化的数据管线搭建认知地基,再以逐步优化和任务奖励机制塑造推理路径,从而让模型不仅“看得到”,更“理解得了”。这份能力,在 8 个多模态推理任务的基准测试中成功打破行业 SOTA,证明了思路的前瞻性与技术的实用性。

值得一提的是,它的设计并非追求参数规模的极限,而是通过策略性数据筛选与训练节奏把握,在基础规模下实现性能突破,这为资源受限的场景提供了新思路。

模型也有“短板”

当然,如同每一个优秀系统一样,M2-Reasoning-7B 也并不完美。它的几个局限成为未来优化的关键方向。

推理深度有限:相比专注语言推理的模型如 DeepSeek-R1,M2 在推理链长度上稍显逊色。这意味着它在处理多层次因果关系或逻辑演绎时,容易走得浅而快,但不够深入。

重复生成倾向:在某些回答过程中,它可能出现病态重复,陷入逻辑循环。这类问题可能源于生成过程中的稳定性波动,亟需在解码策略上进行更细致的约束与优化。

视觉感知精度不稳定:尽管总体空间理解能力优秀,但在处理细粒度视觉元素时仍偶有误判甚至虚构现象。这提示我们:多模态模型在感知与语义融合之间还有更广阔的精度提升空间。

M2已经不是一个尝试性的实验模型,而是一次实证了“融合推理”的范式转变。下一步,或许我们将看到它延伸到机器人导航系统、AI 教学引擎,甚至 Web3 分布式智能体的边缘推理节点之中。(END)

参考资料:​​​https://arxiv.org/pdf/2507.08306​

收藏
回复
举报
回复
相关推荐