微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!

发布于 2025-10-11 06:37
浏览
0收藏

当你看到一张立方体展开图时,只需几秒的心理模拟(mental simulation)就能判断它能否折叠成完整立方体;面对三个点电荷的受力分析,随手画个受力图就能理清力的方向与大小关系——这些人类与生俱来的视觉推理能力,却曾是多模态大模型的“致命短板”。GPT-4o曾在立方体折叠推理中混淆相邻面与对面的关系,在点电荷受力计算中错判力的方向,核心问题在于:如何让智能体像人类一样,将“看见”与“思考”真正结合?

我们解读最新技术,文末有相关信息。

微软团队在CVPR'25的教程中给出了系统性答案:用强化学习(RL)为多模态智能体注入“视觉思考”能力,从图像生成辅助推理、工具使用提升精度,到多轮轨迹优化稳定训练,构建了一套“See(感知)-Visual Think(视觉思考)-Act(行动)”的完整闭环。本文将拆解这一研究的核心技术逻辑与突破点。

1 多模态推理的核心瓶颈:缺失的“视觉模拟”能力

多模态智能体的推理能力,本质上需要匹配人类“非语言推理”的核心——视觉模拟。报告通过两个典型案例,揭示了当前多模态大模型(MLLM)的关键短板。

1.1 从立方体折叠到电荷受力:人类与AI的推理差距

在“立方体展开图能否折叠”的测试中,人类会通过分步心理模拟:先确定一个面为“顶面”,再依次折叠相邻面,验证是否存在重叠或缺口;而GPT-4o虽能给出“能折叠”的结论,推理过程却存在根本性错误——它将展开图中相邻的“面2”和“面3”判定为“顶面(面1)的左侧与右侧”,忽略了二者在物理结构中本应相邻的关系,导致逻辑矛盾。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

更复杂的点电荷受力推理测试(EMMA基准任务)中,差距更为明显。人类会通过“画受力图”的视觉模拟:-2Q对+Q是吸引力(方向指向-2Q),+3Q对+Q是排斥力(方向远离+3Q),再根据电荷量大小(|+3Q|>| -2Q|)判断排斥力大于吸引力,最终确定合力方向;而GPT-4o虽能套用库仑定律计算力的大小,却错判了+3Q对+Q的力方向(误判为“向下右”而非“远离+3Q”),导致最终结论完全偏离。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

1.2 视觉模拟为何是多模态智能的关键?

研究引用Tosto等人(2014)的结论指出:“空间能力是数学表现、科学与工程领域专长的重要预测因素”。对智能体而言,视觉模拟的价值体现在两点:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区


非语言推理的载体:人类的机械推理(如齿轮转动方向判断)、空间旋转(Shepard & Metzler 1971年提出的心理旋转实验)均依赖视觉模拟,缺乏这一能力,智能体无法处理“无文本标注”的物理场景;

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

推理精度的保障:视觉化过程能暴露逻辑漏洞(如立方体相邻面矛盾),而纯文本推理易陷入“符号化陷阱”(如点电荷力方向错判)。

2 突破路径一:图像生成让智能体“看得见思考过程”

既然视觉模拟是核心,第一步便是让智能体“生成图像来辅助思考”——即通过图像生成,将抽象的推理过程转化为可视化内容,再基于可视化结果优化动作决策。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

2.1 从文本推理到视觉化推理:模型架构的演进

传统多模态模型(如Chameleon)采用“图像-文本统一输入”架构,推理过程完全依赖文本链(Chain-of-Thought);而报告提出的“视觉思考”架构,将图像生成嵌入推理环节,形成两种核心模式:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

直接提示生成(Direct Prompting):输入视觉任务(如迷宫),智能体先生成“推理图像”(如迷宫路径标注),再基于图像输出动作序列。例如在迷宫任务中,智能体生成“左转路径标注图”后,输出“Go left”的动作;

工具辅助生成(Tool-augmented Generation):通过图像工具(如Qwen的图像解析模块)将视觉输入转化为结构化信息,再生成推理图像。例如在MiniBehavior任务中,智能体先解析“打印机位置”的视觉信息,生成“携带打印机的路径图”,再输出“Pickup → Go left → Drop”的动作序列。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

2.2 视觉规划的实践:从迷宫到 FrozenLake

在“视觉规划”(Visual Planning)实验中,研究验证了图像生成对“物理约束感知”的提升:

迷宫任务:纯文本推理的智能体可能输出“穿墙”的无效动作,而生成“路径可视化图像”的智能体,能通过图像验证“是否违反物理约束”,最终输出“直走至交叉路口→左转”的合规动作;

FrozenLake任务:该任务中冰面存在“陷阱”,纯文本推理易忽略陷阱位置,而视觉化推理的智能体通过生成“陷阱标注图”,能避免“Fall into the Hole”的失败动作,动作成功率提升约30%。

2.3 图像输出的奖励设计:从“动作解析”到“最优判断”

图像生成的核心挑战是“如何设计奖励机制”——纯图像无法直接量化,研究提出“规则化动作解析”方案:将“图像-图像转换”(如迷宫路径图的步骤变化)解析为离散动作(如“左转”“前进”),再通过对比“模型动作”与“最优动作”给出奖励:

• 若动作符合最优路径,奖励为“1”;

• 若动作非最优但合规,奖励为“0.5”;

• 若动作违反物理约束(如穿墙),奖励为“-1”。

这种设计让“视觉思考”的结果可量化,为后续强化学习优化提供了基础。

3 突破路径二:工具使用强化视觉推理的“精度控制”

图像生成解决了“有无视觉思考”的问题,而“工具使用”则解决了“视觉思考精度”的问题。报告通过DeepEyes模型与OpenThinkIMG框架,构建了一套“视觉工具生态”,让智能体能通过工具实现“精准视觉探索”。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

3.1 DeepEyes的工具生态:从Zoom-in到Point+DrawLines

DeepEyes的核心是将“基础视觉操作”转化为工具,覆盖“视觉搜索-信息提取-关系标注”全流程:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

Zoom-in/Crop(放大/裁剪):针对复杂图像(如多区域图表),智能体可放大目标区域(如非洲咖啡偏好子图),减少无关信息干扰。实验显示,该工具能使视觉接地(Grounding IoU)从0.2提升至0.35,同时降低 hallucination(幻觉)率约15%;

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

OCR(光学字符识别):用于提取图像中的文字信息(如百分比、数值)。在“非洲咖啡偏好百分比差”任务中,智能体通过Zoom-in定位非洲子图,再用OCR提取“Fruity & Floral(40.0%)”与“Rich & Bold(15.0%)”,计算出25%的差值——而GPT-4o因未精准提取数值,误将15%算为18%,得出22%的错误结果;

Point+DrawLines(点选+画线):用于标注数据关系(如时间序列中的关键点)。在“1970-2000年洋流强度变化”任务中,智能体通过Point工具标记三大洋流(墨西哥湾暖流、黑潮、南极绕极流)在两个年份的强度值,再用DrawLines工具绘制对比线,最终准确判断“三者增幅相同(25单位)”,而GPT-4o因错读数值,误判“墨西哥湾暖流增幅最大”。

3.2 OpenThinkIMG:模块化RL框架的“兼容与扩展”

为让工具生态可复用,研究提出OpenThinkIMG框架,该框架具备三大核心特性:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区


模块化设计:将“奖励机制”“工具集”“模型”“任务”解耦,支持灵活替换(如替换工具为“DrawLine”,模型为“Gemini Pro”,任务为“ChartQA”);

工具评估体系:内置“工具调用效果评分”模块,可基于“动作合规性”“信息准确性”量化工具使用效果;

RLrollout API:提供标准化的强化学习交互接口,简化“轨迹生成-奖励计算-模型更新”的流程。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

实验显示,基于OpenThinkIMG训练的“V-Tool RL”模型,在ChartGemma测试集上的性能(59.39%)已接近闭源模型GPT-4.1(68.20%),远超传统文本RL模型(29.56%)。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

3.3 DeepEyes的训练动态:从“探索”到“高效利用”

DeepEyes的训练过程分为三个阶段,清晰展现了工具使用的优化方向:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区


S1(初始探索):工具调用次数多(约2.2次/任务),响应长度长(约325字符),但接地精度低(IoU约0.2)——智能体在尝试不同工具组合;

S2(高频工具使用):工具调用次数保持稳定,响应长度缩短(约225字符),接地精度提升(IoU约0.28)——智能体逐渐聚焦有效工具;

S3(高效利用):工具调用次数降至1.0次/任务,响应长度进一步缩短(约175字符),接地精度达0.35,V*Bench评分提升至85+——智能体学会用“最少工具”实现“最高精度”。

4 强化学习的深度适配:从单轮优化到多轮轨迹强化

工具与图像生成解决了“视觉思考的载体”问题,而强化学习的“多轮适配”则解决了“复杂场景下的持续优化”问题。传统单轮RL无法应对“多轮交互、状态依赖”的真实场景,报告提出StarPO算法与VAGEN框架,实现了多模态智能体的稳定训练。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

4.1 单轮RL的局限:真实场景中的“多轮难题”

在WebShop(购物)、Sokoban(推箱子)等真实任务中,单轮RL存在两大缺陷:

状态遗忘:任务需要多步动作(如推箱子需“移动→推箱→再移动”),单轮RL无法记忆前序状态,导致动作逻辑断裂;

奖励偏差:单轮奖励仅基于“当前动作”,无法评估“动作对最终目标的贡献”(如推箱第一步“移动到箱子旁”本身无奖励,但对后续推箱至关重要)。

4.2 StarPO算法:State-Thinking-Action-Reward的闭环

StarPO(State-Thinking-Action-Reward Policy Optimization)算法的核心是“将多轮交互视为轨迹(Trajectory),强化整个轨迹的合理性”,分为三步:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

1.轨迹生成(Rollout):智能体从初始状态(S0)出发,每一轮生成“思考过程+动作”(如“观察到箱子在(2,2)→移动到(2,1)”),环境执行动作后反馈“奖励(r)”与“新状态(S1)”,重复K轮形成完整轨迹(T: S0→a0→r0→S1→...→aK→rK→SK+1);

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

2.轨迹验证(Verification):计算轨迹级奖励(如推箱子任务中,“成功推到目标”的轨迹奖励为1,“中途卡住”的奖励为0.2),筛选高价值轨迹;

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

3.轨迹强化(Reinforce):基于高价值轨迹更新模型策略,让智能体更倾向于生成“符合轨迹逻辑”的思考与动作。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

4.3 破解“回声陷阱”:StarPO-S的稳定性优化

多轮RL易陷入“回声陷阱”——智能体过度拟合“局部奖励高的推理模式”,抑制探索(如在Bandit任务中,反复选择“初始奖励高的选项”,忽略其他可能更优的选项)。研究提出StarPO-S改进方案:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

奖励方差过滤:保留“奖励方差高”的轨迹(即推理模式更多样的轨迹),避免单一模式过拟合;

动作裁剪(Clipping):限制“极端动作”的权重,防止异常轨迹干扰模型;

移除KL约束:减少“与初始模型的偏差限制”,提升探索灵活性。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

实验显示,StarPO-S在Sokoban任务中的成功率从0.15提升至0.2,FrozenLake任务从0.1提升至0.18,有效缓解了“回声陷阱”。

4.4 VAGEN:视觉状态表示的“任务适配”

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

多模态智能体的另一核心问题是“如何让视觉语言模型(VLM)‘读懂’视觉状态”。VAGEN(Visual State Representation for VLMs)框架对比了三种视觉状态表示方式的任务适应性:

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

自然语言表示:如“Player at (2,1), Box at (2,2)”,在Drawer(抽屉操作)任务中性能最优(1.00),适合“需自然语言描述的场景”;

结构化表示:如Player:(2,1); Box:(2,2),在Place(放置)任务中性能最优(1.00),适合“需精准定位的场景”;

符号化表示:如用“#”表示墙、“O”表示箱子,在Sokoban任务中性能较好(0.88),适合“网格类场景”。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区


微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区


同时,VAGEN设计了“视觉推理奖励”机制:

LLM-as-Judge:用LLM验证“智能体生成的视觉状态描述”与“真实状态”的一致性,给出“状态准确性奖励”;

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

双层GAE(General Advantage Estimation):对“token级”(如“Player位置”描述)和“turn级”(如“整个动作步骤”)分别计算优势值,实现“中间推理步骤”与“最终动作”的分层奖励。

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

微软CVPR'25简明教程:强化学习训练多模态智能体,构建感知思考行动完整闭环!-AI.x社区

5 总结与未来:多模态智能体的“视觉思考”之路

本报告的研究,本质上是为多模态智能体构建了“类人类视觉推理”的技术体系,核心突破可概括为三点:

  • 确立“视觉模拟”的核心地位:通过对比人类与AI的推理差距,明确“视觉化思考”是多模态推理的关键;
  • 构建“工具+图像生成”的视觉思考载体:从基础工具(Zoom-in、OCR)到图像生成,让智能体“能看见、能精准探索”;
  • 提出“多轮RL”的稳定训练方案:通过StarPO的轨迹优化与StarPO-S的“回声陷阱”破解,让智能体在复杂场景中持续进化。

未来,这一方向的探索将聚焦于“更复杂的真实场景”——如自动驾驶中的“动态视觉推理”、机器人操作中的“多工具协同”,而OpenThinkIMG与VAGEN的模块化设计,为这些场景的扩展提供了基础。

参考资料

• 题目:See. Think. Act. Training Multimodal Agents with Reinforcement Learning

• 作者:Linjie Li(Microsoft)

• 链接:https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Linjie.pdf

本文转载自旺知识,作者:旺知识

已于2025-10-11 09:38:59修改
收藏
回复
举报
回复
相关推荐