
华为推出规划器OmniEVA,为机器人装上“会想又会做”的大脑 精华
在人工智能的下一个前沿,具身智能(Embodied AI)正成为机器人、自动驾驶、增强/虚拟现实等领域的关键驱动力。与传统的“屏幕内”智能不同,具身智能要求 AI 不仅能理解世界,还能在物理世界中感知、推理并采取行动。这意味着它必须同时处理视觉、语言、空间、动作等多模态信息,并将它们转化为可执行的计划。
多模态大语言模型(MLLMs)的崛起,为跨模态理解与推理带来了革命性突破。它们能够将图像、文本、视频等信息统一到一个语义空间中进行推理,展现出惊人的泛化能力。可是当这些模型被放到真实的具身任务中时,问题就暴露出来了——它们在“看懂”与“做到”之间,仍存在两道难以跨越的鸿沟。
第一道鸿沟是几何适应性缺口(Geometric Adaptability Gap)。许多 MLLMs 主要在 2D 图像上训练,缺乏对三维空间结构的深度理解。当任务需要精确的空间推理——例如在桌面上堆叠物体、在复杂环境中导航——它们往往力不从心。现有的 3D 融合方法大多是硬编码的,不区分任务需求,结果是在不需要 3D 信息的任务中引入噪声和额外计算负担。
第二道鸿沟是具身约束缺口(Embodiment Constraint Gap)。现实中的机器人有物理限制——机械臂的可达范围、关节角度、抓取能力、底盘的移动范围等。如果规划器忽视这些约束,即便推理结果在语义上正确,也可能在物理上无法执行。
正是为了跨越这两道鸿沟,华为 Noah’s Ark Lab 推出了 OmniEVA。研究团队意识到,真正的具身智能需要两种能力的结合:一是任务自适应的 3D 融合,让模型在需要时引入三维空间信息,在不需要时保持轻量高效;二是具身感知的推理机制,让模型在生成计划时自动考虑机器人本体的物理可行性。
华为 Noah’s Ark Lab 长期深耕 AI 前沿研究,在多模态理解、3D 场景建模、强化学习与机器人控制等领域积累了丰富的技术储备。OmniEVA 正是这些研究成果的集大成者,旨在为具身智能提供一个跨任务、跨模态、可执行的通用规划框架。
图1:2D和3D实体推理基准的性能比较。OmniEVA在8个基准测试中有7个达到了最先进的性能。
1.OmniEVA 概述
OmniEVA 的研究目标十分明确,构建一个能够在多种任务和多种模态下工作,并且生成结果可直接执行的具身多功能规划器。它不仅要“理解”任务,还要“落地”执行,真正实现从感知到行动的闭环。
在核心创新上,OmniEVA引入了两大关键技术。
Task-Adaptive 3D Grounding(任务自适应三维定位)
这一模块通过任务自适应门控机制(TAGR),根据任务语义和场景复杂度动态决定是否引入 3D 空间信息。这样,模型在需要精确空间推理的任务中可以充分利用 3D 数据,而在纯语义或简单视觉任务中则避免不必要的计算和噪声。
Embodiment-Aware Reasoning(具身感知推理)
这一机制通过任务与具身双重奖励的强化学习策略(TE-GRPO),让模型在推理过程中同时优化任务完成度和物理可执行性。它确保生成的计划不仅逻辑正确,而且符合机器人本体的运动学与环境约束。
在整体架构上,OmniEVA 以多模态大语言模型为核心,前端接收来自视觉传感器的 RGB 图像、深度图以及任务文本描述。视觉编码器将图像转化为 2D 特征,3D 编码器利用深度信息和相机参数生成三维位置编码。TAGR 模块在任务与场景条件的引导下,动态融合 2D 与 3D 特征。融合后的多模态信息输入到语言-推理模块,结合 TE-GRPO 策略生成具身可执行的计划。最终,计划被转化为机器人控制指令,驱动其在真实或仿真环境中完成任务。
这种架构的最大特点是灵活与闭环,它既能在多任务、多模态环境中自适应调整信息融合策略,又能在推理阶段主动考虑执行约束,实现从感知到行动的无缝衔接。
2.方法与技术细节
OmniEVA 的核心在于,它并不是简单地把多模态信息“堆”进一个大模型,而是通过精心设计的模块,让模型在不同任务中像经验丰富的机器人操作员一样,懂得何时需要精确的三维空间感知,何时又可以依赖二维视觉与语言推理,从而在效率与精度之间找到最佳平衡。
图2:OmniEVA的模型架构。左图:OmniEVA的整体架构,采用了一种新颖的任务自适应门控路由器,该路由器动态地结合了3D位置嵌入。中间:门控路由器模块的详细实现。右图:门控路由器在不同任务中的激活状态示例。
任务自适应三维定位(TAGR 模块)
这一模块的设计初衷,是解决传统 3D 融合方法“一刀切”的弊端。现实任务千差万别,有的需要精确判断物体的空间位置与相对关系(如堆叠、避障),有的则更依赖语义理解(如描述场景、回答视觉问题)。TAGR(Task-Adaptive Gated Router)就像一个聪明的调度员,先判断任务类型和场景复杂度,再决定是否引入 3D 信息。
为此,TAGR 首先提取两类关键信息:任务条件来自任务文本的语义编码,捕捉指令中是否包含空间推理需求;场景条件则源自视觉编码器对全局图像的分析,评估环境的几何复杂度。两者被拼接后输入一个轻量级 MLP,生成门控信号的 logits。
门控的实现采用了Gumbel-Softmax 技术,这是一种可微分的近似采样方法,能在训练中稳定地学习“开”或“关”3D 通道的策略。最终,模型会根据门控值 g 动态融合特征:当 g 接近 0 时,主要依赖 2D 特征;当 g 接近 1 时,则将 3D 位置编码与 2D 特征相加,形成更丰富的空间表征。
这种动态融合策略让 OmniEVA 在面对不同任务时表现得游刃有余——既不会在简单任务中浪费算力,也不会在复杂空间任务中“缺斤少两”。
具身感知推理(TE-GRPO 策略)
如果说 TAGR 解决了“看”的问题,那么 TE-GRPO(Task & Embodiment-aware GRPO)则解决了“做”的问题。它的目标是让模型生成的计划不仅逻辑正确,还能在物理世界中被机器人执行。
TE-GRPO 的核心是一个双重奖励函数:一方面衡量任务完成度(rtask),确保输出的计划在语义上满足指令要求;另一方面衡量具身可执行性(rembod),通过仿真器或运动学检查,验证计划是否符合机器人本体的物理约束。
训练过程中,这两个奖励的权重并非固定,而是采用课程学习式调度:在早期训练阶段,模型更关注任务语义的正确性;随着训练推进,具身可执行性的权重逐渐增加,促使模型在后期生成的计划既“聪明”又“可做”。
为了提升可解释性,OmniEVA 的输出采用了 Chain-of-Thought 格式化,即先在<think> 标签中给出推理过程,再在 <answer>标签中给出最终可执行的计划。这不仅方便调试和分析,也为未来的人机协作提供了透明的决策依据。
数据集与训练流程
OmniEVA 的训练数据覆盖了从二维到三维、从静态到动态、从感知到执行的全链路任务。团队构建了一个多模态任务数据集,既包含 2D 图像理解、视频时序推理、3D 场景问答等感知类任务,也包含导航、抓取、放置、复合操作等具身任务。
图3:OmniEVA的训练范式。两阶段级联逐步增强了具身智能:第一阶段建立了广泛的推理基础,而第二阶段将其建立在物理现实中,最终在不同的现实世界场景中实现稳健的任务执行。
训练分为两个阶段:首先是监督微调(SFT),利用高质量标注数据让模型学会基础的多模态理解与推理能力;接着是强化微调(TE-GRPO),在仿真环境中通过双重奖励不断优化模型的任务完成度与物理可执行性。
这种“先打好基础,再实战磨炼”的训练策略,使得 OmniEVA 在面对真实世界的多样化任务时,既有扎实的感知与推理能力,又能生成切实可行的执行方案。
3.实验与评测
为了验证 OmniEVA 的通用性与实用性,华为 Noah’s Ark Lab 团队在设计实验时,几乎覆盖了具身智能可能遇到的全景任务——从二维视觉推理,到三维空间理解,再到真实机器人导航与操作,形成了一套多维度、多模态的评测矩阵。
在二维任务上,团队选择了四个具有代表性的基准:Where2Place 测试模型在场景中为物体选择合理位置的能力;VSI-bench 聚焦视觉-空间推理;PACO-LVIS 考察模型在开放词汇物体识别与定位上的表现;RoboRefit 则模拟机器人在已知环境中执行物体放置与调整的任务。这些任务对模型的语义理解、空间关系推理和细粒度定位能力提出了综合要求。
三维任务评测则更具挑战性。团队选用了SQA3D(三维场景问答)、ScanQA(基于扫描场景的问答)、Scan2Cap(三维场景描述)以及 ScanRefer(三维目标指代理解)等数据集。这些任务不仅要求模型理解三维几何结构,还要将其与语言信息精准对齐,才能在复杂空间中做出正确判断。
在导航任务方面,团队使用了HM3D 和 MP3D 两大主流三维导航基准,测试模型在多房间、多障碍的真实感环境中,从自然语言指令生成可执行的导航路径的能力。这类任务直接考验模型的空间规划与路径优化水平。
图4:按门激活率排序的提示前30个单词:最高和最低的比较。为了减少统计噪声的影响,分析仅限于350个最常见的单词。
结果显示,OmniEVA 在多个维度上都交出了亮眼的成绩单。与 GPT-4o、Gemini-2.5-Pro、RoboBrain-32B 等强劲对手相比,它在二维任务上的平均得分提升超过 10 分,在三维任务中更是刷新了多项 SOTA(state-of-the-art)记录。例如,在 ScanRefer 上,OmniEVA 在仅使用文本输入的情况下就达到了 55.8 的准确率,显著高于此前的最佳成绩 44.4。在导航任务中,SPL(成功路径长度比)指标提升了 5.4 个百分点,超越了专为导航优化的 UniNavid 模型。
图5:闸门激活状态的案例研究。验证数据集中的选定示例说明了输入提示中最突出的激活和停用单词,突出了模型对特定语言线索的敏感性。
为了进一步剖析性能来源,团队进行了消融实验。结果表明,动态 3D 融合策略相比硬编码 3D 或完全不使用 3D 特征,平均性能提升了 1.22%,且在需要空间推理的任务中优势更为明显。而TE-GRPO 策略在具身任务上的贡献尤为突出——在 Where2Approach 和 Where2Fit 两个基准上,成功率分别提升了 28.95% 和 34.28%;在移动放置任务中,Easy 难度的成功率提升了 43%,Hard难度更是提升了 50%。这些数据直接证明了具身感知推理对任务可执行性的巨大价值。
图6:TE-GRPO方法在局部移动操作任务中的消融结果。
更令人印象深刻的是,OmniEVA 并非只停留在仿真环境中。团队将其部署在一台双臂轮式机器人平台上,让它在真实场景中执行自然语言指令。无论是跨房间搬运物品,还是在不同桌面环境中完成精细的放置任务,OmniEVA 都展现了稳定的跨场景泛化能力。这意味着它不仅能在实验室里表现优异,还能在现实世界中应对环境变化与任务多样性。
图7:案例研究说明了OmniEVA在实施例感知约束下的推理过程。
从这些实验可以看出,OmniEVA 并不是单纯追求在某一类任务上“刷榜”,而是通过任务自适应三维定位与具身感知推理的结合,构建了一个真正意义上的通用具身规划器。这种能力的背后,是对多模态融合策略的精细打磨,以及对机器人执行约束的深度建模。它让我们看到了具身智能从“会想”到“会做”的关键一步。
4.技术亮点与意义
OmniEVA 的诞生,不只是又一个多模态大模型的升级版本,而是一次在具身智能领域的结构性突破。它的创新性体现在三个核心方面。
首先是动态任务自适应 3D 融合。过去的 3D 融合方法往往是“一刀切”,无论任务是否需要,都将三维信息硬塞进模型,结果是计算冗余、噪声增加。OmniEVA 的 TAGR 模块则像一位懂行的导演,能根据任务语义和场景复杂度,精准决定何时引入 3D 特征,何时保持轻量的 2D 推理。这种按需调度的机制,让模型在不同任务间切换时既高效又精准。
其次是具身约束感知的推理机制。TE-GRPO 策略让模型在生成计划时,不仅考虑“任务完成度”,还实时评估“物理可执行性”。这意味着它不会给出那些在现实中无法执行的“纸上谈兵”方案,而是生成符合机器人运动学和环境约束的可落地计划。这一机制的引入,让模型的推理结果真正跨过了从虚拟到现实的鸿沟。
第三是跨模态与跨任务的统一框架。OmniEVA 并非为某一类任务定制,而是通过统一的架构,将 2D 图像理解、3D 场景推理、视频时序分析、导航规划、操作执行等多种能力整合在一起。这种全链路的设计,使它具备了在不同领域、不同任务间迁移的天然优势。
图8:无和无实施例感知推理的响应比较。
在应用前景上,OmniEVA 的潜力几乎覆盖了所有需要“理解+执行”的机器人场景。家庭服务机器人可以利用它理解自然语言指令,并在复杂家居环境中完成物品搬运、整理等任务;工业自动化与仓储物流领域,它能在动态环境中进行路径规划、货物抓取与精准放置;在智能导航与人机协作中,它可以作为“会思考的副驾驶”,在工厂、医院、机场等场景中与人类协同完成任务。
对行业而言,OmniEVA 释放了两个重要信号。第一,具身智能正从“会说”向“会做”加速进化,语言模型不再只是信息处理器,而是行动规划者。第二,具身智能与大模型的融合趋势已成必然,未来的机器人将不再依赖单一感知或控制模块,而是由多模态大模型驱动的全局智能体。
5.结论与展望
OmniEVA 的研究成果表明,通过任务自适应的 3D 融合与具身感知推理,可以显著提升多模态大模型在真实世界中的执行力。它在多任务、多模态、具身执行上的突破,让我们看到了一个通用具身规划器的雏形——既能理解复杂指令,又能在物理世界中稳健执行。
展望未来,OmniEVA 的发展方向同样令人期待。更复杂的多机器人协作,将考验它在多智能体系统中的协调与分工能力;与实时感知和自适应控制的深度融合,将让它在动态环境中保持高效与安全;而开放数据集与社区合作,则有望加速其迭代与落地,让更多开发者和研究机构参与到具身智能的生态建设中。
可以说,OmniEVA 不仅是华为在具身智能领域的一次技术跃迁,也是整个行业向“通用具身智能体”迈进的重要一步。它让我们离那个既能理解世界、又能改变世界的 AI 时代,更近了一些。(END)
参考资料:https://arxiv.org/abs/2509.09332
本文转载自波动智能,作者:FlerkenS
