Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势

发布于 2025-9-25 06:51
浏览
0收藏

当你结束一天的工作,期待AI能自主整理杂乱的桌面、按照需求烹饪简单的餐食,甚至协助完成家电维修时,是否曾疑惑:为何现有AI多局限于屏幕交互,难以真正“走进”物理世界?这一问题的核心,指向了AI领域的关键方向——具身智能体(Embodied AI Agent)。Meta超级智能实验室的Jianwei Yang团队CVPR2025发布的教程系统梳理了多模态具身智能体从“感知环境”到“逻辑思考”再到“自主行动”的技术路径,为我们揭示了多模态具身智能体领域的突破与未来可能。

第一章 具身智能体:定义与需求原点

1.1 为什么需要具身智能体?

人类对“自主助手”的需求从未停止,而具身智能体正是这一需求的技术载体。其应用场景已覆盖三大核心领域:

自动驾驶:无需人类干预,自主感知路况、规避障碍、规划路线;

工业机器人:在工厂环境中完成精密组装、物料搬运等重复性任务;

家用机器人:处理清洁、收纳、看护等日常繁琐事务,降低人类生活负担。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

正如研究中指出的,人类长期梦想拥有能“融入生活”的自主AI智能体,而具身智能体正是实现这一梦想的关键技术形态。

1.2 什么是具身智能体?

根据Wikipedia定义,具身智能体是“能够感知环境、自主采取行动以实现目标,并可通过机器学习或知识获取提升性能的实体”。微软研究院进一步将其核心能力拆解为两大维度:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

多模态理解:接收视觉、触觉等多感官输入,构建对环境的完整认知(例如通过摄像头识别物体位置,通过触觉感知物体重量);

动作预测:基于环境认知和目标,生成与环境交互、操纵物体的行动指令(例如“将杯子放到餐桌上”的具体动作序列)。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

简言之,具身智能体的核心目标是“像人类一样,在物理世界中自主解决问题”。

第二章 多模态具身智能体的发展浪潮

2.1 技术演进时间线:从基础到突破

具身智能体的关键发展节点,呈现出清晰的技术迭代路径:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


2023年前:基础模型探索期,代表成果包括DroidBot-GPT(结合LLM的机器人控制)、WebAgent(网页交互智能体),此时模型多聚焦单一模态或特定任务,泛化能力有限;

2024年:多模态融合加速期,RT-2X(视觉-语言-动作跨模态模型)、AppAgent(应用交互智能体)、TraceVLA(引入轨迹提示的VLA模型)、OpenVLA(开源视觉-语言-动作模型)等相继出现,模型开始具备跨场景适应能力;

2025+:通用化探索期,方向集中于“更强的推理与规划能力”,目标是让智能体在未知环境中自主拆解复杂任务(例如“清理厨房”分解为“整理台面→清洗餐具→收纳物品”)。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

2.2 视觉语言预训练(VLP):“看见”的基础

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

要实现“感知环境”,视觉语言预训练(VLP)模型是核心支撑。这类模型通过大规模图像-文本数据学习,具备两大关键能力:

开放词汇(Open-vocabulary):无需针对特定物体重新训练,即可识别未见过的类别(例如训练过“猫”“狗”后,能识别“兔子”);

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


空间接地(Spatially grounded):精准定位物体在空间中的位置(例如指出“杯子在桌子左上角”)。

代表性模型包括:

CLIP(OpenAI):通过对比学习将图像与文本映射到同一特征空间,实现零样本物体识别;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


Florence(Microsoft Research):构建“统一视觉栈”,支持分类、检测、分割等44项视觉任务,在多个基准测试中达到state-of-the-art(SOTA);

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


GLIP、Grounding DINO:进一步强化“文本-空间定位”关联,例如输入“黑色小狗”,可直接输出小狗的边界框。


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


第三章 “思考”的核心:多模态大语言模型(MLLM)

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

具身智能体仅“看见”还不够,还需具备“理解指令、逻辑推理”的能力——这一功能由多模态大语言模型(MLLM)实现。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

3.1 MLLM的视觉理解能力

MLLM通过融合视觉编码器与语言模型,实现“图像输入+语言输出”的跨模态交互。以GPT-4V(OpenAI,2023)为例:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

极端熨烫场景:输入“人在移动的出租车顶熨衣服”的图像,GPT-4V能准确指出“异常点在于熨烫行为发生在移动车辆顶部,而非固定的室内环境”;

鸡块地图 meme:输入“用鸡块摆成世界地图”的图像,GPT-4V可解读出“文本暗示‘太空看地球的美景’,但图像实际是鸡块,幽默源于预期与现实的反差”。

3.2 视觉指令调优:让MLLM“听懂需求”

LLaVA(Large Language and Vision Assistant)的研究提出了两阶段训练方法,大幅降低MLLM的落地成本:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

• 对齐阶段:仅训练“视觉编码器与语言模型之间的投影权重(W)”,使用图像-文本对让两者“理解同一语义”,8×A100 GPU仅需数小时;

• 指令跟随阶段:用指令数据(如“描述这张图”“这张图里有什么异常”)微调投影权重与语言模型,8×A100 GPU不到1天即可完成。

这种方法实现了“低成本复现GPT-4V级视觉理解”,例如LLaVA对“车顶熨烫”场景的解读,与GPT-4V的一致性超过90%。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

3.3 空间推理的突破:Set-of-Marks(SoM)技术

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

传统MLLM在“精准空间定位”上存在短板,而SoM技术通过“图像标注+语言关联”解决了这一问题。其核心是在图像中添加数字标记,让模型将标记与空间位置绑定:

物体计数:在水果篮图像中标记苹果(1、2、5等)和橙子(3、4、6等),GPT-4V可准确统计“6个苹果、4个橙子”,错误率从传统方法的20%降至5%以下;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


控制器操作指导:在游戏手柄图像中标记按键(1为方向键、2为左摇杆等),模型可详细说明“左摇杆(2)控制角色移动,右摇杆(3)控制镜头方向”,大幅提升操作指导的精准度。


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

第四章 “行动”的关键:视觉-语言-动作(VLA)模型

具身智能体的最终目标是“行动”,而视觉-语言-动作(VLA)模型是连接“思考”与“行动”的桥梁。Jianwei Yang团队的研究重点分析了VLA模型的演进——从OpenVLA的基础探索,到TraceVLA、LAPA的技术补全,再到Magma的统一突破。

4.1 OpenVLA:开源VLA的基础探索

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

OpenVLA是首个开源的通用VLA模型,其架构核心是“多模态输入→动作输出”的端到端流程:

输入层:接收图像(物体状态)与语言指令(如“把茄子放进碗里”);

特征融合:通过DinoV2(视觉编码器)、SigLIP(图像-文本对齐)提取特征,经MLP投影后输入Llama 2(7B参数语言模型);

输出层:通过“动作解令牌器”生成机器人可执行的动作指令(如Δx=5cm、旋转角度=10°)。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

OpenVLA在“视觉泛化”“运动泛化”等任务上表现优异,例如在“拿起茄子”“翻转锅具”等未见场景中,成功率超过传统模型30%。但它存在三大短板:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


• 仅依赖单张图像,无法捕捉历史动作(如“机器人之前移动了多少距离”);

• 动作预测短视,无法规划多步动作;

• 仅用机器人数据训练,易过拟合,丢失多模态理解能力。

4.2 TraceVLA:用“轨迹提示”补全历史信息

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

为解决“历史信息缺失”问题,TraceVLA提出“视觉轨迹提示”技术:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

轨迹提取:用CoTracker算法跟踪视频序列中“机器人末端执行器”与“移动物体”的关键点,生成运动轨迹;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

轨迹叠加:将轨迹叠加到当前图像上(例如用虚线标记机器人之前的移动路径),形成“原始图像+轨迹图像”的双输入;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


指令融合:结合语言指令(如“把海绵移到蓝色瓶子旁”),让模型基于历史轨迹预测下一步动作。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

在Google Robot的SimplerEnv环境中,TraceVLA的表现显著优于OpenVLA:面对“背景变化”场景,成功率从41.2%提升至52.3%;面对“干扰物增加”场景,成功率从54.3%提升至66.7%。在真实WidowX机器人上,“折叠布料”“拿起刀具”等任务的成功率也提升了40%以上。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

4.3 LAPA:从人类视频中学习“潜在动作”

机器人数据采集成本高、场景有限,而LAPA(Latent Pretraining from Videos)提出“从人类视频中学习动作”的思路,大幅降低数据依赖:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


• 潜在动作量化:用C-ViViT(视频编码器)+VQ-VAE(向量量化)将人类动作(如“拿起杯子”)转化为“潜在动作令牌”;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


预训练:用Large World Model(LWM-7B)学习“视频帧→潜在动作”的映射关系;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


微调:用少量机器人数据微调,将人类动作转化为机器人可执行的指令。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

LAPA在“真实桌面操作”任务中,仅用人类视频预训练,成功率就超过“从头训练”模型2倍;若结合少量机器人数据,成功率与“用全量机器人数据训练的OpenVLA”持平。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

4.4 Magma:多模态统一的“终极突破”

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Magma是当前最全面的具身智能体模型,其核心是“同时具备多模态理解与动作预测能力”,而非构建单一功能的专用模型。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

4.4.1 技术架构

输入层:支持图像、视频、语言指令、UI界面等多模态输入;

特征编码器:用ConvNeXt-XXLarge(视觉)+Llama-3-8B(语言)提取跨模态特征;


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

任务适配:通过SoM(Set-of-Marks)处理空间定位任务,通过ToM(Trace-of-Mark)处理时序动作任务。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

4.4.2 训练数据

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Magma使用3900万条多源数据,覆盖四大类型:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


• instructional视频(如人类做饭、维修的视频);

• 机器人操作数据(如Open-X-Embodiment的940万条轨迹);

• UI导航数据(如网页点击、APP操作);

• 多模态理解数据(如图像描述、视觉问答)。

4.4.3 性能表现

Magma是目前唯一能覆盖“多模态理解→UI接地→机器人操作”全任务谱的模型:

• 在“UI导航”任务中,“点击指定按钮”的成功率达96.3%,远超GPT-4V的67.5%;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

• 在真实WidowX机器人上,“放置蘑菇到锅中”“推动布料”等任务的平均成功率达67.5%,是OpenVLA(25.0%)的2.7倍;

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

• 在“空间推理”任务中,“网格定位”“迷宫导航”的准确率超过LLaVA-1.5、Qwen-VL等模型20%以上。

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

第五章 挑战与未来:走向“会思考”的具身智能体

尽管技术已取得突破,当前具身智能体仍存在两大核心短板:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

5.1 多模态推理能力不足

现有模型缺乏“系统2思考”(即深度逻辑推理)能力。例如面对“如何修理故障的微波炉”,模型无法像人类一样拆解“检查电源→打开外壳→更换零件”的逻辑链。虽有LMM-R1等模型尝试引入“思维链(Chain-of-Thought)”,但在多模态场景下的推理精度仍需提升。

5.2 多模态规划能力欠缺

复杂任务需“多步规划+自我修正”,而现有模型多局限于“单步动作”。例如“清理桌子”需分解为“收起餐具→擦拭台面→收纳杂物”,但模型难以自主规划步骤,也无法在“擦拭台面后发现残留污渍”时进行修正。Pi 0.5等模型虽尝试解决这一问题,但在开放场景中的泛化能力仍有限。

5.3 未来方向:进入“体验时代”

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区

正如DeepMind创始人David Silver提出的“AI发展三阶段”(模拟时代→人类数据时代→体验时代),具身智能体的终极目标是“在真实环境中通过自主体验学习”。未来技术将聚焦三大方向:

Meta团队CVPR'25教程:感知-思考-行动(VLA)多模态具身智能体进展与趋势-AI.x社区


融合多智能:整合“语言智能”(理解指令)、“视觉智能”(感知环境)、“时空智能”(捕捉物体位置与运动);

低成本数据:进一步利用人类视频、仿真环境数据,降低机器人数据依赖;

长程规划:提升“多步任务拆解+动态修正”能力,让智能体在未知环境中自主解决复杂问题。

参考资料

• 标题:Towards Multimodal AI Agent That Can See, Think and Act

• 作者:Jianwei Yang

• 单位:Meta AGI

• 链接:https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Jianwei.pdf

本文转载自​​旺知识,作者:旺知识

收藏
回复
举报
回复
相关推荐