
Meta AI发布革命性V-JEPA 2
近日Meta AI发布了V-JEPA 2(Video Joint-Embedding Predictive Architecture 2),这一开源世界模型的推出标志着AI从数字世界向物理世界迈出了重要一步。这个系统能够从互联网规模的视频数据中学习,实现强大的视觉理解、未来状态预测和零样本规划能力,为智能物理代理的发展奠定了重要基础。
1.基于JEPA的创新突破
V-JEPA 2建立在联合嵌入预测架构(JEPA)的基础上,这是一种革命性的自监督学习方法。与传统的生成式预训练方法不同,JEPA通过在抽象表示空间中进行预测,避免了像素级预测的低效性。这种方法专注于学习可预测的场景动态,同时忽略不相关的噪声信息。
JEPA的核心思想是通过联合嵌入的方式,让模型学习输入数据的抽象表示,然后在这个表示空间中进行预测。这种方法不仅计算效率更高,还能够学习到更加鲁棒和可泛化的特征表示。
V-JEPA 2采用了先进的视觉掩码去噪目标来进行学习。该模型通过重建被掩码的时空补丁来学习视频的潜在表示。这种方法的巧妙之处在于,它迫使模型理解视频中的时空关系和动态变化,而不仅仅是静态的视觉特征。
在训练过程中,模型随机掩盖视频帧中的某些区域,然后尝试根据未被掩盖的部分来重建这些区域。这种自监督的学习方式使得模型能够学习到视频中物体的运动模式、场景的变化规律以及时间序列中的因果关系。
V-JEPA 2的训练规模达到了前所未有的水平,使用了超过100万小时的互联网规模视频数据,结合了100万张图像。这种大规模的数据训练使得模型能够接触到丰富多样的视觉场景和动态模式,为其强大的泛化能力奠定了基础。
训练数据集VideoMix22M包含了2200万个样本,来源于多个公开数据集,包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。这些数据集涵盖了从日常生活场景到专业技能演示的各种视频内容,为模型提供了全面的视觉世界知识。
2.关键技术
- 数据规模化技术:构建了包含2200万样本的VideoMix22M数据集,整合了多个公开数据源。这种大规模数据集的构建不仅仅是简单的数据堆叠,而是经过精心设计的数据融合策略,确保了数据的多样性和质量。
- 模型规模化技术:将编码器容量扩展到超过1B参数,使用了Vision Transformer-giant (ViT-g)架构。这种大规模的模型设计使得V-JEPA 2能够处理复杂的视觉模式和长期依赖关系。
- 训练策略优化:采用了渐进式分辨率策略,将预训练扩展到252,000次迭代。这种训练策略允许模型逐步适应不同分辨率的输入,提高了训练效率和最终性能。
在损失函数方面,采用了教师强制损失,预测器接收当前帧表征的编码作为输入,学习预测下一时间步的表征;另一方面,滚动损失通过将预测器的输出反馈回输入端,使模型能够预测未来多个时间步的表征。通过联合优化这两种损失函数的总和,V-JEPA 2-AC 显著减少了多步推演过程中的误差累积,从而有效提升了长期未来预测的准确性。
- 时空增强技术:在渐进式更长和更高分辨率的视频片段上进行训练,最终达到64帧、384×384分辨率。这种时空增强技术使得模型能够处理更加详细和复杂的视频内容。
3.卓越性能
V-JEPA 2在六个主要基准测试任务中取得了平均88.2%的准确率,包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet,全面超越了之前的基准模型。这一成绩不仅体现了模型的强大性能,也证明了其在不同类型视觉任务中的泛化能力。
在运动理解方面,V-JEPA 2在Something-Something v2基准测试中达到了77.3%的top-1准确率,超越了InternVideo和VideoMAEv2等知名模型。这个结果特别值得关注,因为Something-Something v2是一个专门测试时序动作理解的具有挑战性的数据集。
在外观理解方面,V-JEPA 2与最先进的图像-文本预训练模型如DINOv2和PEcoreG保持了竞争力。这表明该模型不仅在动态视频理解方面表现出色,在静态视觉特征提取方面也具有强大的能力。
通过注意力探测器的评估,研究人员验证了仅通过自监督学习就能够产生可迁移和领域无关的视觉特征,这些特征可以应用于各种分类任务。这一发现对于计算机视觉领域具有重要意义,因为它表明大规模的自监督学习可以学习到通用的视觉表示。
为了评估时序推理能力,V-JEPA 2编码器与多模态大语言模型进行了对齐,并在多个视频问答任务上进行了评估。令人印象深刻的是,尽管在预训练期间缺乏语言监督,该模型仍然取得了优异的成绩。
在各个测试中,V-JEPA 2表现出色:在PerceptionTest上达到84.0%,在TempCompass上达到76.9%,在MVP上达到44.5%,在TemporalBench上达到36.7%,在TOMATO上达到40.3%。这些结果挑战了视觉-语言对齐需要从一开始就进行联合训练的假设。
这一成果证明了预训练的视频编码器可以在后期与语言模型进行对齐,并展现出强大的泛化能力。这种方法的成功意味着我们可以先专注于视觉理解的学习,然后再添加语言理解能力,这为多模态AI系统的开发提供了新的思路。
4.V-JEPA 2-AC:机器人规划的革命性突破
V-JEPA 2-AC是这次发布的关键创新,它是预训练编码器的动作条件化变体。这个模型仅使用来自Droid数据集的62小时未标注机器人视频进行微调,就学会了根据机器人的动作和姿态来预测未来的视频嵌入。
该架构是一个3亿参数的transformer,采用块因果注意力机制,使用教师强制和展开目标进行训练。这种设计使得模型能够理解动作与环境变化之间的因果关系,为机器人的智能行为提供了基础。
通过模型预测控制,V-JEPA 2-AC实现了零样本规划能力。该模型通过使用交叉熵方法(CEM)最小化想象的未来状态与视觉目标之间的距离来推断动作序列。这种方法使得机器人能够在没有看到过的环境中执行复杂的任务。
模型在到达、抓取和拾取-放置等任务中取得了很高的成功率,这些任务在不同实验室的未见过的机器人手臂上进行,无需任何奖励监督或额外的数据收集。这种零样本能力的实现是机器人技术发展的重要里程碑。
与基准方法Octo(行为克隆)和Cosmos(潜在扩散世界模型)相比,V-JEPA 2-AC展现出了显著的优势。在执行效率方面,V-JEPA 2-AC每步执行计划仅需约16秒,而Cosmos需要4分钟,效率提升了15倍。
在任务成功率方面,V-JEPA 2-AC在到达任务中达到了100%的成功率,并在各种物体类型的抓取和操作任务中超越了其他方法。这种性能的提升不仅仅是数值上的改进,更代表了实用性的重大飞跃。
值得注意的是,V-JEPA 2-AC仅使用单目RGB摄像头运行,无需校准或环境特定的微调。这种简单的硬件要求大大降低了部署门槛,使得该技术更容易在实际场景中应用。
这种通用性的实现强化了学习世界模型的泛化能力,表明V-JEPA 2-AC不仅仅是一个实验室的原型,而是一个可以在真实世界中部署的实用系统。
本文转载自鲁班模锤,作者:庞德公
