具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!

发布于 2025-8-29 08:44
浏览
0收藏

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

论文链接:https://arxiv.org/pdf/2508.14160
Git 链接:https://github.com/alibaba-damo-academy/RynnEC

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

亮点直击

  • RynnEC,一个旨在增强机器人对物理世界理解能力的具身认知型多模态大语言模型。
  • 提出了一条数据生成流程,将自我中心的 RGB 视频转换为具身认知问答数据集。
  • 构建了一个细粒度的具身认知基准数据集RynnEC-Bench,涵盖了22 项物体与空间认知任务
  • 大量实验证明,在具身场景中的认知能力方面,RynnEC 显著优于通用型 MLLM(如 GPT-4o 等)和任务专用型 MLLM,展现出良好的可扩展应用潜力。

如下图 1 所示,RynnEC 是一个大型视频理解模型,其视觉编码器和基础参数来源于 VideoLLaMA3。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

本文还观察到 RynnEC 在多任务训练中表现出显著优势,并在更具挑战性的具身认知任务中展现出初步的“能力涌现”迹象。RynnEC 在帮助机器人执行大规模、长时程任务方面有巨大潜力。

总结速览

解决的问题

  1. 多模态大语言模型在具身智能中的应用受限
  • 当前主流 MLLM 多基于互联网图像训练,缺乏与真实物理世界匹配的视觉认知能力;
  • 缺乏适用于机器人在现实环境中执行任务的空间与物体理解能力。
  1. 现有方法的局限性
  • 缺乏灵活的视觉交互方式(如遮罩、点选等);
  • 对物体的属性、数量、结构等理解不够细致;
  • 缺乏对视频中连续空间信息的建模能力;
  • 缺乏大规模、高质量的自我中心具身认知数据。

提出的方案

  1. 设计统一的多模态视频大语言模型 RynnEC
  • 构建于 VideoLLaMA3 基础之上;
  • 引入区域编码器(Region Encoder)与 mask 解码器(Mask Decoder),支持区域级视频交互;
  • 支持细粒度的物体和空间认知任务。
  1. 提出具身认知能力的双维度划分
  • 物体认知:理解物体属性、数量、位置及其与环境的关系;
  • 空间认知:包括世界中心视角与自我中心视角下的空间推理与尺度感知。
  1. 构建数据生成流程
  • 从自我中心 RGB 视频出发,经过实例分割,生成物体认知与空间认知问答数据;
  • 构建大规模具身认知数据集。
  1. 发布评估基准 RynnEC-Bench
  • 覆盖 22 项任务,系统评估模型在具身认知方面的综合能力。

应用的技术

  1. 模型结构
  • 基于视频理解的多模态大语言模型;
  • 区域编码器 + mask 解码器,实现区域级视觉交互;
  • 支持端到端的物体定位与空间推理。
  1. 数据生成与处理
  • 自我中心视频实例分割;
  • 自动生成问答式具身认知训练数据;
  • 多任务数据整合与标注质量控制。
  1. 评估体系
  • 构建 RynnEC-Bench 基准集,涵盖多种具身认知任务;
  • 与通用型和任务专用型 MLLM 进行对比实验。

达到的效果

  1. 性能领先
  • 在物体属性理解、物体分割和空间推理任务中达到当前最先进(SOTA)水平
  • 显著优于 GPT-4o 等通用 MLLM 和任务专用模型。
  1. 模型紧凑、交互灵活
  • 架构紧凑,支持区域级视频交互;
  • 实现细粒度的实例级理解与定位。
  1. 数据覆盖广泛,任务丰富
  • 使用来自 200+ 个家庭的 20,000+ 条视频;
  • 构建包含 22 项任务的高质量基准数据集。
  1. 具备良好的扩展性与泛化能力
  • 在多任务训练中表现出“能力涌现”;
  • 为机器人执行复杂、长时程任务提供强大认知核心支持。

方法

RynnEC 是一个稳健的视频具身认知模型,具备处理和输出多种视频物体提议的能力,使其能够灵活应对关于物体与空间的具身问题。由于该领域研究相对匮乏,本文从四个方面全面介绍了 RynnEC 的构建过程:数据生成、评估框架构建、模型架构以及训练过程。

具身认知数据生成

本文的具身认知数据集构建(见下图2)始于自我中心视频的采集与实例分割。一条分支采用人类参与的流式生成方法,构建多样的物体认知问答对。另一条分支则利用单目稠密3D重建方法和多样化的问题模板,生成空间认知任务的问答对。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

视频采集与实例分割

本文采集的自我中心视频覆盖了200多个家庭,每个家庭大约采集100段视频。为确保视频质量,本文要求分辨率至少为1080p,帧率不低于30fps,并使用稳定器以保证拍摄稳定性。为了实现不同视频轨迹之间的多样性,每个家庭被划分为多个区域,拍摄轨迹被分为单区域、双区域和三区域类型。跨区域拍摄通过改变穿越区域的顺序提升了多样性。此外,本文在不同轨迹下随机变化光照条件和摄像头高度。本文要求每段视频包含垂直与水平旋转,并至少包含两个物体的特写镜头,以模拟机器人任务执行中的可变视野。最终,本文共采集了20,832段室内移动的自我中心视频。为控制视频长度,这些视频每40秒进行一次切分。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

由于Grounding DINO 1.5的性能限制,新检测到的物体实例可能在前面的帧中已经出现但被漏检。因此,SAM2对关键帧中每个新物体进行向前4秒的实例反向跟踪,从而实现完整生命周期的实例追踪。最终,本文从所有自我中心视频中共获得了114万个视频实例遮罩。

物体问答生成

在本工作中,生成了三类与物体相关的任务:物体描述、物体理解问答以及指代视频物体分割。对于每个实例,本文首先将包含该实例的所有帧按时间顺序平均划分为八组。在每组帧中,基于两个因素选择一个实例关键帧:实例在帧中的尺寸,以及实例中心与帧中心之间的距离。因此,每个实例对应八个实例关键帧,具备良好的可见性和多样的视角。其中一半帧中通过遮罩裁剪出该实例,另一半则使用红色边框和背景变暗技术突出显示该实例。最终的一组物体提示图像展示于上图2中的蓝色框中。


由于SAM2在自我中心视频中的物体跟踪一致性有限,当一个实例在视频中间歇性出现时,可能会被分配多个ID。本文采用物体类别过滤方法,将每类物体在每段视频中限制为最多两个实例,从而最小化重复实例的数量。每个家庭中存在多个视频片段,导致某些显著物体重复出现,形成明显的长尾分布。对频繁出现的物体类别进行下采样,以防止物体分布极端化。经过上述过滤后,保留实例的提示图像集被输入至 Qwen2.5-VL,通过多种提示词生成物体描述与物体理解问答。值得注意的是,在物体理解问答中,计数类问题具有特殊性,需要专门设计的提示词。


随后,基于每个实例的描述和问答,Qwen3 生成两类指代表达:简单指代表达和情境指代表达。简单指代表达通过空间位置与类别等特征组合来识别物体。情境指代表达则建立一个任务场景,要求模型在该上下文中推理出用户所需的实例。每类问答在输出后都经过人工筛选以确保数据质量。

空间问答生成

与物体问答不同,空间问答需要更精确的全球场景上下文的三维信息。因此,本文采用 MASt3R-SLAM 从RGB视频中重建三维点云,并获取相机外参。随后,通过将2D像素点投影至3D坐标,视频中每个实例的分割结果可以映射到点云上。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

RynnEC-Bench

由于本工作首次提出了全面的细粒度具身视频任务集,目前尚缺乏用于评估多模态大模型(MLLM)在该领域整体能力的稳健评估框架。为此,本文提出了 RynnEC-Bench,从物体认知与空间认知两个维度,在开放世界场景中评估细粒度具身理解模型的能力。下图 3 展示了 RynnEC-Bench 中的能力分类体系。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

能力分类体系

物体认知被划分为两个任务:物体属性认知与指代物体分割。在具身任务执行过程中,机器人常常需要清晰理解关键物体的功能、位置、数量、表面细节、与周围环境的关系等。因此,物体属性识别任务在这些方面构建了全面且细致的问题。


在机器人操作与导航过程中,识别操作实例与目标实例是关键步骤。在视频中进行精确的实例分割是指示这些关键物体位置的最佳方式。具体而言,指代物体分割任务被划分为直接指代问题与情境指代问题。直接指代问题仅包含对实例的描述组合,而情境指代问题则设定在特定场景中,要求多模态大模型进行推理以识别目标物体。


空间认知要求多模态大模型(MLLM)从第一人称视频中推导出三维空间意识。本文将其划分为自我中心空间认知和世界中心空间认知。自我中心空间认知保持对代理体与环境之间空间关系的感知,并支持空间推理与心理模拟;在时间范围上,本文考虑过去、现在和未来三种情况。世界中心空间认知则关注对物理世界三维布局与尺度的理解,本文进一步从尺寸、距离和位置关系三个方面进行评估。

数据平衡

RynnEC-Bench 中的视频采集自十个与训练集不重叠的住宅。在评估物体认知时,本文观察到不同住宅之间的物体类别分布存在显著差异,使得评估结果对选取的住宅高度敏感。为减轻这种偏差并更好地反映真实部署情况,本文引入了基于物理世界的评估协议。本文首先定义了一个包含  个粗粒度类别和  个细粒度类别的室内物体分类体系。随后,使用 GPT-4o 对来自  个住宅的  张室内图像进行解析,估计经验物体类别频率分布;由于数据规模庞大,这一分布可作为真实室内物体频率的近似值。最后,本文进行按频率比例的采样,使 RynnEC-Bench 中的物体类别分布尽可能贴近经验分布,从而实现更加客观和现实的评估。具体而言,对于答案为  或  的计数类问题,本文减少了 ,以实现更平衡的难度分布。RynnEC-Bench 中的所有问答对均经过严格的人类筛选,以确保高质量。

评估框架

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

RynnEC 架构

RynnEC 由三个核心组件组成:用于基础多模态理解的视觉-语言基础模型、用于细粒度以物体为中心的表示学习的区域感知编码器、用于视频分割任务的自适应 mask 解码器。值得注意的是,后两个模块被设计为即插即用组件,具有独立的参数空间,从而保证架构的灵活性和模块化扩展性。

视觉-语言基础模型 

本文使用 VideoLLaMA3-Image 作为 RynnEC 的视觉-语言基础模型,该模型包含三个主要模块:视觉编码器、投影器和大语言模型(LLM)。视觉编码器采用 VL3-SigLIP-NaViT,它利用任意分辨率视觉标记策略,能够灵活地编码不同分辨率的图像。作为 LLM,本文使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct,以实现性能与计算成本之间的可扩展权衡。

区域编码器 

第一人称视频常包含混乱场景,其中存在大量相似物体,仅依靠语言线索难以区分。为了解决这一问题,本文引入了专用的物体编码器,用于特定物体的表示学习。这有助于在训练过程中实现更精确的跨模态对齐,并在推理阶段实现直观、细粒度的人机交互。本文采用简单而高效的 MaskPooling 进行物体标记化,随后使用一个两层投影器将物体特征对齐到 LLM 的嵌入空间。在训练过程中,利用跨多帧的视频物体 mask 以获得准确表示。在推理阶段,该编码器具有灵活性,既支持单帧也支持多帧的物体 mask 。

Mask 解码器 

准确的物体定位对于第一人称视频理解至关重要。为在不损害模型预训练性能的前提下引入强大的视觉定位能力,本文使用 LoRA 对 LLM 进行微调。本文的 mask 解码器基于 SAM2 架构,该架构在纯视觉分割任务中展现出良好的泛化能力和先验知识。对于给定的视频和指令,本文采用一个特殊的 [SEG] 标记作为触发器,用于生成对应视觉区域的 mask 。为支持该过程,本文引入了一个额外的线性层,用于将 [SEG] 标记对齐到 SAM2 的特征空间。

训练与推理

如下图 4 所示,RynnEC 的训练采用一个渐进式的四阶段流程:1) mask 对齐,2)物体理解,3)空间理解,4)指代分割。前三个阶段旨在逐步增强细粒度、以物体为中心的理解能力,而最后一个阶段则专注于赋予模型精确的物体级分割能力。该基于课程的训练方法确保了视觉、空间与定位知识的逐步整合,避免过拟合于单一任务。各阶段使用的数据集在下表 1 中进行了总结。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

各阶段的训练细节如下:

1)Mask 对齐  该初始阶段的目标是鼓励模型关注区域特定的标记,而不仅仅依赖全局视觉特征。本文在一个大规模的物体级图文描述数据集上微调区域编码器和 LLM,其中每条描述都明确对应一个特定的物体 mask 。该对齐训练使模型学会将以物体为中心的嵌入与相应的语言描述关联起来,为后续阶段的局部推理奠定基础。

2)物体理解  在此阶段,重点转向丰富模型的第一人称物体知识,包括颜色、形状、材质、大小和功能属性等。区域编码器与 LLM 联合微调,以更有效地将这些物体级信息整合进跨模态嵌入空间。该阶段是空间理解的基础。

3)空间理解  在前一阶段的基础上,此阶段赋予模型空间推理能力,使其能够理解并推理场景中物体的相对位置和排列结构。本文使用大量生成的空间问答数据、前一阶段的数据以及通用 VQA 数据,以保持模型的指令遵循能力。

4)指代分割  在最后阶段,本文在 LLM 之后集成 mask 解码器模块,使模型具备细粒度的指代分割能力。通过 LoRA 微调 LLM,以最小化对其预训练推理能力的干扰。训练数据不仅包含分割特定的数据集,还包括前几个阶段的样本,以缓解灾难性遗忘问题。该多任务混合策略确保在提升分割性能的同时,不牺牲模型的物体与空间理解能力。

实验

实现细节

训练

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

评估

本文在 RynnEC-Bench 上对五类 MLLM 进行了全面评估,涵盖通用模型以及针对区域级理解和分割任务微调的模型。对于不支持直接输入区域信息的模型,本文统一使用边界框在视频中高亮目标物体。多个物体使用不同颜色的边框进行区分,并在问题提示中进行引用。


本文观察到,通用型 MLLM 无法在视频中定位物体,因此仅对具备此能力并经过微调的专业模型在 RynnEC-Bench 的分割子集上进行评估。


为确保评估协议一致,视频以 1 fps 的速率采样,最多采样 30 帧。如果初始采样超过 30 帧,则保留包含目标的帧,其余帧从视频中剩余部分进行均匀采样。

具身认知评估

主要结果

下表 2 展示了本文提出的 RynnEC 模型以及五类相关 MLLM 在 RynnEC-Bench 上的评估结果。尽管 RynnEC 模型仅包含7 B 参数,但它展现出强大的具身认知能力,性能甚至超过了最先进的闭源模型 Gemini-2.5 Pro,领先10.7分。同时,RynnEC 在各类任务中表现出均衡且优越的性能。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

物体认知

下图 5 (a) 从多个维度展示了 RynnEC 在物体属性认知方面的综合评估。由于大多数物体属性认知能力包含在通用视频理解技能中,Gemini-2.5-Pro 在多个能力项上表现优越。然而,考虑到具身 MLLM 的边缘部署需求,这些大规模模型的推理速度成为瓶颈。RynnEC 仅使用 7B 参数,即可在大多数类别中实现与 Gemini-2.5-Pro 相当的物体属性认知能力。尤其是在表面细节、物体状态和物体形状等属性上,RynnEC-2B 甚至超过了所有其他 MLLM。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

空间认知

下图 5 (b) 通过更细粒度的任务展示了 RynnEC 的空间认知能力。由于空间能力在以往工作中尚未被正式定义或系统性探索,不同的 MLLM 通常仅在特定技能上表现突出。总体而言,空间想象(Spatial Imagery)、运动想象(Movement Imagery)和轨迹回顾(Trajectory Review)等空间认知能力在以往 MLLM 中普遍缺失。相比之下,RynnEC 拥有更全面的空间能力,可帮助具身智能体在复杂环境中建立空间意识。

泛化能力与可扩展性

为了研究 RynnEC 的泛化能力,本文在 VSI-Bench 上进行了实验,该基准是一个纯文本的空间智能评估基准。如下图 6 所示,RynnEC-7B 在几乎所有能力维度上持续超越 VideoLLaMA3-7B。值得注意的是,RynnEC 的训练采用了以 mask 为中心的空间感知范式,而 VSI-Bench 中的所有任务均涉及纯文本的空间推理。这表明空间感知能力不必受限于表征模态,空间推理能力可以在不同模态之间有效迁移。进一步观察发现,RynnEC 在路线规划任务上表现出显著的性能提升,尽管该任务并未包含在训练中。这表明具身智能体的导航性能目前受限于基础的空间感知能力,例如对方向、距离和空间关系的理解。只有具备强大的基础空间认知能力,具身大模型才能在高层次的规划与决策任务中获得优异表现。与其他相似规模的具身 MLLM 相比,RynnEC-7B 还在 VSI-Bench 上取得了领先的45.8分。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

某些任务,如物体分割与运动想象,仍然对 RynnEC 构成显著挑战。本文假设这些任务表现不佳主要源于训练数据不足。为验证这一点,本文对不同任务类别的数据可扩展性进行了实证分析。随着数据量从20%逐步增加至100% ,模型在所有任务上的表现都稳步提升。这一观察结果促使本文进一步扩展数据集,以增强 RynnEC 的空间推理能力。然而值得注意的是,随着数据量的增长,边际收益逐渐减少,表明规模扩展的回报递减。如何提升数据多样性以维持这种扩展趋势,仍是未来研究中亟待解决的关键挑战。

具身应用

近期,一些研究尝试将 MLLM 作为“智能大脑”用于辅助机器人完成规划任务、感知环境与做出决策。然而,当前的 MLLM 缺乏关键能力,如空间感知、细粒度感知与实例定位,这使得相关应用仅限于简单任务。如下图 7 所示,RynnEC 展示了在复杂环境中辅助机器人完成长时序任务的潜力。

具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!-AI.x社区

从两个由搭载 RynnEC 的机器人执行的实时任务中,本文观察到 RynnEC 在任务执行中发挥了以下作用:(1) 细粒度的物体定位与理解,使机器人能够更快速地识别目标物体并评估其状态;(2) 目标方向与距离的感知,提升了导航效率与精度;(3) 空间尺度估计,使机器人能够执行更精细的操作;(4) 计数能力,有助于完成需要数学推理的任务。

需要强调的是,RynnEC 在具身任务中的作用远不止于这些示例。本文希望有更多研究者将 RynnEC 模型集成到各类机器人系统中,从而推动具身智能在现实世界中实现更有价值的应用。

结论与未来工作

RynnEC,这是一种用于具身认知的视频多模态大语言模型(Video MLLM)。通过区域编码器与 mask 解码器的架构设计,RynnEC 实现了灵活、细粒度的视觉交互。同时,RynnEC 在紧凑模型规模下展现出稳健的物体与空间认知能力。为了解决现有场景数据的局限性,本文采用了一种仅依赖 RGB 视频的数据生成流程。此外,为了弥补细粒度具身认知基准的缺失,本文提出了 RynnEC-Bench,涵盖了 22 类物体与空间认知能力。在训练过程中,RynnEC 通过四阶段能力注入流程逐步整合多样技能。重要的是,本文主张基于视频的细粒度视觉理解是实现物理世界中可泛化认知的关键。RynnEC 将使机器人能够完成更精确的认知任务,从而推动具身智能的实际发展。


将 RynnEC 视为通用具身智能模型发展的基础性一步。展望未来,本文计划从两个主要方向进一步推进 RynnEC:

  • 增强推理能力:稳健的视觉推理对于解决任何复杂的具身任务至关重要。一个重要的研究方向是如何有效整合 RynnEC 的多种能力以执行联合推理,从而实现更高层次的具身问题求解。
  • 统一的感知与规划框架:近期研究已开始探索训练统一的具身智能模型,将感知与规划结合在一起。然而,这些方法在支持细粒度、基于视频的视觉交互方面仍存在限制。未来本文希望赋予 RynnEC 更灵活的规划能力,并将其与 VLA 模型集成,构建一个闭环的具身系统。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/WkpiAb1wfSro9_yLEufeWw​

收藏
回复
举报
回复
相关推荐