
视觉语言世界模型来了!AI不仅能看懂视频,还能自我反思制定计划,离人类思维更近一步!
文章地址:https://arxiv.org/pdf/2509.02722
亮点直击
- 提出学习一种以自然语言作为抽象世界状态表示的世界模型。引入了视觉语言世界模型(Vision Language World Model, VLWM),该模型通过视觉观察感知环境,并利用基于语言的抽象来预测世界的演化过程。
- 提出将直接世界建模作为目标,并以大规模、未经过滤的视频数据为基础进行训练。
- 采用了一条高效的抽象处理流程,并引入了一种反思式的 System-2 模式,即“带推理的规划(planning with reasoning)”。
- VLWM 在多个评估指标上都有较大提升,在 WorldPrediction 程序化规划任务中也达到了 45% 的准确率,更是创下了SOTA。
总结速览
解决的问题
当前的高级世界模型在理解和推理动作的语义和时间抽象方面发展不足,无法有效支持复杂的规划任务。
提出的方案
引入视觉语言世界模型(VLWM),利用自然语言作为抽象的世界状态表示,通过视觉观察来感知环境,并预测世界的演化过程。
应用的技术
- 将原始视频压缩为分层的字幕树(Tree of Captions),并通过基于大语言模型的自我优化(Self-Refine)方法精炼为结构化的目标-计划描述。
- 学习动作策略和动态模型,支持反应性系统1计划解码和反思性系统2规划。
- 使用自监督训练的评论模型来评估假设未来状态与预期目标状态之间的语义距离。
达到的效果
VLWM 在辅助视觉规划(VPA)的基准评估和 PlannerArena 人类评估中实现了最先进的性能,系统2将 Elo 分数提高了27%。在 RoboVQA 和 WorldPrediction 基准测试中,VLWM 也超越了强大的视觉语言模型基线,达到了SOTA。
方法论
本文旨在训练一个能够理解并预测动作如何影响物理世界状态的世界模型,并开发一个以该世界模型为核心组件的推理与规划框架。本文方法建立在 LeCun提出的智能体架构之上,其中一个与奖励无关的世界模型在给定候选动作计划的情况下进行推演,智能体评估每个推演结果与当前状态向期望目标推进的程度,并选择最小化该距离(即成本)的计划。
下面首先详细介绍了本文如何提取结构化的基于语言的表示作为未来世界状态的抽象,包括出于效率考虑的语义压缩技术和质量优化策略。接着,介绍了如何以自监督方式训练 critic 来评估成本,并基于成本最小化原理解释 system-2 的计划搜索过程。
视觉语言世界建模
给定一个视频,目标是提取如下图2(b) 所示的结构化语言表示,该表示由一个目标(描述与解释)和一个过程性计划(动作-状态序列)组成。对于这种视频到文本的提取任务,一个直接的方法是将完整视频输入到一个视觉语言模型(VLM)中,并提示其提取语言表示。然而,这里存在一个不可能三角:在可行的计算与内存预算下,同时实现以下三点几乎不可能:1)用于细粒度感知的高空间分辨率,2)覆盖多个过程步骤的长时间跨度,3)能够理解复杂指令的大型智能 VLM。
为了解决这一挑战,提出了一个两阶段策略。首先,将输入视频压缩为一个密集的 字幕树(Tree of Captions),该过程显著减少了数据体积,同时保留了关键语义信息。随后,使用大型语言模型(LLM)从这些字幕中提取结构化的目标-计划表示。
由于第二阶段完全在文本上进行,因此可以高效地利用大型语言模型处理,并通过 Self-Refine 实现迭代式的质量优化。
将视频压缩为字幕树
每个字幕树由一组从视频的不同局部窗口独立生成的视频字幕组成,共同形成一个层次化的树结构。该结构旨在全面捕捉细粒度的局部细节与长时程的全局信息。一个关键挑战在于如何自适应地确定树的结构,即为字幕生成安排不同层级的窗口。
理想情况下,每个节点或叶子应对应一个语义单一、连贯的单元,避免跨越语义边界。现有的时间动作定位与分割模型在开放性方面存在局限,因为它们依赖于带有封闭词汇表的人工注释动作分类体系,且通常仅在狭窄的视频领域中训练。
最终得到的字幕树实现了显著的压缩效果:例如,Ego4D 数据集中原始大小为 1.1 TB 的视频文件可以压缩为小于 900 MB 的字幕文件。
使用 LLM 自我优化提取计划
给定从视频中提取的压缩字幕树,本文的下一个目标是导出一个结构化的文本表示,作为视觉语言世界模型(VLWM)的预测目标。该表示包含以下四个组成部分:
该表示包含以下四个组成部分:
- 目标描述(Goal description)是对整体成就的高层次总结(例如:“炒西红柿鸡蛋”)。在下游应用中,用户给出的目标描述通常较为简洁(例如一句话),省略了全面定义最终状态的细粒度细节。因此,需要明确的目标解释。
- 目标解释(Goal interpretation)包含情境性的解释,概述初始世界状态和预期的最终世界状态。初始状态描述工具、材料及其依赖关系等当前状态,为计划生成提供必要的基础。最终状态则对目标描述进行具体化解释,以便在 System-2 规划中进行代价评估。例如:“为了达成目标,需要将鸡蛋煮熟并与西红柿混合,同时对混合物进行适当调味。鸡蛋应充分搅拌,以获得均匀的质地……”
- 动作描述(Action description)是系统的最终输出,将被传递给下游执行体或呈现给用户(例如:“在炉灶上预热煎锅”)。它们必须清晰、简洁且信息充分,以使接收方能够理解并实现预期的世界状态转变。
- 世界状态(World states)是系统内部的中间表示,用于推理和计划搜索。它们应作为信息瓶颈:既要充分捕捉所有与任务相关的动作后果,又要尽量减少冗余。例如:“该动作通过提升温度为煎锅做烹饪鸡蛋的准备。煎锅的状态从冷变为热,准备好进行烹饪。用于预热的油防止鸡蛋粘锅,确保其均匀熟透……”
为了确保生成的各组成部分满足上述要求,本文采用一种迭代的 Self-Refine 过程,利用大语言模型(LLMs)作为优化器。本文首先向 LLM 提供输出要求的详细描述、预期格式的示例以及格式化后的字幕树(Tree of Captions)作为输入,以生成初始草稿。在每一次优化迭代中,LLM 首先对当前草稿提供反馈,并据此生成修订版本。该自我优化过程会重复进行预设次数,逐步提升输出质量。
为了将字幕树输入到 LLM 中,本文使用深度优先遍历(DFS)的顺序对其进行格式化。这种线性化方式与 LLM 通常训练和熟悉的文本文档层级结构相一致(例如:Section 1 → 1.1 → 1.1.1 → 1.1.2 → ...)。本文中本文使用 Llama-4 Maverick,因为其推理效率高且支持较长的上下文输入。需要指出的是,Self-Refine 方法并不依赖于特定的 LLM 架构。
以下是 Llama-4 Maverick 在 Self-Refine 过程中生成的一些反馈示例:
- 草稿中的 “Prepare the ingredients for Zucchini Curry.” 可以拆分为更具体的动作,例如 “Wash, peel, and chop the zucchini” 和 “Chop the onions and tomatoes.”
- 在炒洋葱、生姜、大蒜和青辣椒之后的状态变化,可以包含更多细节,说明这一步如何影响咖喱的整体风味和质地。
- “Display the Zucchini Curry in a bowl” 这个动作更像是展示步骤,而不是一个能推进任务进展的有意义动作,因此应从步骤中移除。
视觉语言世界模型的训练
VLWM 的训练任务定义如下公式1所示。
VLWM 通过最小化上述公式右侧的交叉熵损失,进行下一个 token 的预测:
该输入输出形式体现了世界建模的三个层次:
- 上下文目标推理,即对可能的未来成就进行预测;
- 动作预判,即提出可能的下一步动作;
- 基于动作的世界状态动态预测。
带推理的规划
虽然 System-1 模式支持快速生成计划,但它缺乏前瞻性、备选方案评估以及修正次优决策的能力。一旦动作被生成,即被固定,模型无法重新考虑或纠正错误。这种反应式行为可能导致错误积累,尤其是在长期或复杂任务中。
为了解决这些局限性,本文引入 System-2 反思式规划,其中世界模型与一个评估模块(critic module)结合,在给定目标的情况下对多个预测的未来进行可取性评估。这使得模型能够通过代价最小化过程进行推理,从而搜索最优的计划。
通过自监督学习训练评估器(Critic)
在基于世界模型的规划中,代价函数通常用于量化候选计划所导致的世界状态与目标状态之间的距离。它评估当前任务进展与预期目标及最终状态之间的一致性程度。
在 JEPA 世界模型中,该距离可以通过世界状态的固定维度嵌入表示之间的 L1 或 L2 距离直接测量。然而,在 VLWM 中,本文必须测量基于语言的世界状态表示之间的语义距离,而不是计算 token 空间中的距离。
理想情况下,当预测轨迹反映出朝向目标的有意义进展时,代价应较低;当轨迹因无关或错误的动作而偏离目标时,代价应较高。
为了建模这种行为,本文以自监督方式训练一个语言模型,使其能够在无需显式标注的情况下评估预测计划的语义质量。如下图 3(a) 所示,本文探索了两种类型的自监督训练信号用于训练评估器:
本文从一个基本的部分轨迹出发,构造训练样本,并追加以下两类之一的步骤:
- (i) 来自任务连贯延续的有效下一步;
- (ii) 从无关任务中采样的干扰步骤。
以确保其对过程顺序和时间连贯性的敏感性。
除了 VLWM 的进展数据之外,评估器的构建也支持来自外部来源的监督,以增强泛化能力。例如,偏好微调数据集(由查询、首选(被选中)响应和被拒绝响应三元组组成)可以直接利用。同样,由于评估器旨在建模语义距离,它也可以从为学习句子嵌入而设计的基于三元组的数据集中受益。这些来源提供了额外的正/负样本对,可用于进一步增强评估器的训练数据。
通过代价最小化实现 System-2 规划
System-2 规划涉及三个组件的协同工作:VLWM、评估器(critic)和执行器(actor)。如上图 3(b) 所示,执行器提出候选动作序列,VLWM 模拟其效果,评估器评估其代价。最终计划通过选择预测代价最低的候选序列确定。
执行器可以由 VLWM 本身实现,也可以是一个外部模块(例如 LLMs),特别是在需要遵循动作空间或输出格式的额外约束时。执行器可以通过调整候选方案数量来控制搜索宽度,或生成部分计划以实现更高效的树搜索。除了评估器计算的代价之外,还可以将任务特定的惩罚项或保护机制整合进代价函数,从而使规划器能够遵循外部约束、安全规则或领域特定的偏好。
实验
实现细节
VLWM-8B
视频来源:如下表 1 所总结,用于视觉-语言世界建模训练的视频主要来自两个领域:
- 网页教学视频:包括 COIN、CrossTask、YouCook2 和 HowTo100M 的子集。这些视频涵盖多种任务,并提供清晰的专家演示。
- 第一人称视角录制:包括 EPIC-KITCHENS-100 和 EgoExo4D。这些视频展示了真实可穿戴代理场景中的连续、未剪辑录制内容。
对于所有数据集,本文从其训练集划分中收集视频。尽管 Ego4D 是一个大规模第一人称视角录制数据集,但本文将其排除在训练数据之外,以避免由于训练/验证划分不一致而与基准测试产生潜在重叠。
视觉-语言世界建模数据的生成。 本文使用感知编码器 PE-G14 和 PerceptionLM-3B(空间分辨率为 320×320,每个输入包含 32 帧,可在 32GB V100 上运行)生成标题树(Tree of captions)。本文根据树结构(BFS 遍历顺序的前 5 个节点)从每个视频中最多采样 5 个目标窗口,并使用 Llama-4 Maverick(128 路专家混合,激活参数为 17B,总参数为 400B,FP8 精度)从包含标题子树的窗口中提取计划,过程包括两轮 Self-Refine。为了提升 LLM 在计划提取过程中的视频理解能力,本文为网页视频提供了额外的语音转录文本,并为 EgoExo4D 提供了专家解说内容,作为视频标题的补充。
除了基于视频的提取外,本文还将 NaturalReasoning 数据集重新用于世界建模,将标题树替换为思维链(chain-of-thoughts)。动作-状态轨迹通过 LLM 的 Self-Refine 和相似的提示词进行提取。
VLWM-critic-1B
最后,加入用于学习语义相似性的训练数据,将 <query, positive sentence, negative sentence>
三元组转换为:query 作为目标,positive sentence 作为正向动作,negative sentence 作为负向动作。该类数据包括 MS-MARCO、SQUAD、HotPotQA、NaturalQuestions 和 FEVER。
辅助视觉规划(VPA)
VPA 基准测试
为了验证 VLWM 的大规模预训练是否在流程规划中带来实际收益,本文采用了辅助视觉规划(Visual Planning for Assistance, VPA)基准测试。VPA 衡量模型在给定视频历史和明确文本目标的情况下,预测当前活动的未来T 个高层步骤的能力。本文遵循标准评估范围T=3 和T=4 。
实验在两个广泛使用的流程规划教学视频语料库上进行:COIN 包含 11,827 个视频,覆盖 180 个任务;CrossTask 包含 2,750 个视频,涵盖 18 个任务。本文遵循官方的训练/验证/测试划分,以保证结果可与现有工作直接比较。
本文将 VLWM 与四个最新的规划器进行对比:DDN、LTA、VLaMP 和 VidAssist,以及两个基于频率的启发式方法:Most-Probable(全局动作频率)和 Most-Probable w/ Goal(基于任务条件的频率)。
VLWM 在 COIN 和 CrossTask 的 VPA 训练集上进行微调,使用与预训练相同的超参数。按照现有工作,本文分别报告以下指标:成功率(Success Rate, SR)、平均准确率(Mean Accuracy, mAcc)和平均交并比(Mean IoU, mIoU),分别衡量计划级准确率、步骤级准确率和动作提议准确率。
下表 2 证实了 VLWM 在 VPA 基准测试中设立了新的技术标准。在 COIN 和 CrossTask 的两个范围T=3 和 T=4 上,本文的模型始终优于现有的基线。与采用 700 亿参数的大型语言模型 VidAssist 相比,本文的 VLWM 仅有 80 亿参数,却在 12 个指标中的 8 个上取得了更好的结果。在四种设置中平均,VLWM 在成功率(SR)上提升了 3.2%、在平均准确率(mAcc)上提升了 3.9%,在平均交并比(mIoU)上提升了 2.9 个点。
使用 PlannerArena 进行人工评估
传统的嵌入式 AI 助手生成面向人类的计划的基准测试是不足的,因为它们依赖于有偏见或低质量的真实数据,无法捕捉真实世界的性能和人类辅助效果。为了解决这个问题,本文创建了 PlannerArena,一个受 ChatbotArena 启发的人类评估框架。这个基于 Arena/Elo 的系统让人类评估者从不同匿名模型生成的计划中选择更好的,成对的结果被转换为 Elo 分数和模型胜率。这个方法与 AI 助手的实际使用案例紧密结合,确保本文开发的模型不仅在理论上可靠,而且在现实世界中具有实际价值。
本文实验设置包括三个数据集(COIN、CrossTask 和 EgoExo4D),将 VLWM 与通过 20 个计划搜索的 VLWM System-2 进行比较,该搜索由一个 80 亿参数的评论者引导,最小化生成计划的成本,以及一个最大化成本的 80 亿参数评论者,与领先的多模态大型语言模型和真实计划进行对比。成对样本在每种可能的对战配置中均匀采样,以在模型之间保持平衡的对战数量。模型从初始评分 1000 开始,使用 Elo K 因子 32 在每场对战后更新分数。五位不同的注释者参与了 PlannerArena 评估,总共评估了 550 对对战,其中三位注释者进行了 90 个样本的固定试点运行以计算注释者间一致性分数。
评论模型评估
在本节中,本文独立于 VLWM-8B 的推演对评论模型进行内在评估,以评估它是否表现出预期行为。
目标达成检测
结果如下表 5 所示。VLWM-critic-1B 在大多数子集上大幅超越基准。VLWM-critic-1B 在 VLWM-Instruct 上达到 98.4%,而在 VLWM-Ego 上较低,为 92.7%。这可能是由于领域差异造成的:本文的评论模型仅在 HowTo100M 指令视频上训练,未见过任何自我中心录制的数据。在 OGP 上,本文评论模型明显优于表现最好的基准 Qwen3-Reranker-8B(72.9% 对 65.6%),但在 OGP-WikiHow 上表现相当(尽管参数数量少了 8 倍)。这一较小差距的可能原因包括数据噪声或 Qwen3-Reranker 的训练数据中可能存在的重叠。
在下图 5 中,可视化了不同评论模型预测的归一化成本曲线。可视化可以视为“能量景观”,理想的形状是在 100% 目标达成点处具有最低成本。在 VLWM 数据上,VLWM-critic-1B 给出了比基准更清晰的景观。然而,当涉及到 OGP 数据集时,分布变得更加嘈杂。尽管存在上述领域差异和数据集噪声问题,性能下降的一个潜在原因是 OGP 仅提供动作轨迹,没有任何明确的世界状态描述,这使得成本评估更加困难。
消融研究。 下表 6 提供了使用 VLWM-critic-1B 和 VLWM 数据的评论输入表示的消融研究。本文尝试去除包含当前和预期最终目标状态描述的目标解释,以及从轨迹表示中去除状态描述,仅保留动作。本文发现这两种消融都导致目标达成检测性能下降,尤其是在未见的 OOD 数据(Ego 子集)上的下降更为严重,这显示了解释和世界状态描述对于有效泛化的重要性。
在 WorldPrediction-PP 上的程序规划
WorldPrediction 基准旨在评估高级世界建模和程序规划能力。其程序规划子集,WorldPrediction-PP,包含 570 个经过人类验证的样本。每个测试案例提供初始和最终视觉状态以及四个候选行动计划,这些计划由视频序列表示。任务是从打乱的反事实干扰项中识别出正确排序的序列,强调目标条件规划的能力以及模型对语义和时间动作顺序的理解。
为了在 WorldPrediction-PP 上评估本文的评论模块,本文遵循了(Chen 等人,2025)中关于苏格拉底 LLM 的评估协议。视觉输入首先通过 Qwen2.5-VL 生成的字幕转换为文本描述。具体来说,描述初始和最终状态的两幅图像生成了一个目标描述,概述了世界状态的变化,候选行动的视频片段也以类似方式生成字幕。这些文本输入直接提供给本文的 VLWM-critic 模型,以计算每个候选计划的成本,选择预测成本最低的选项。
在下图 6 (b) 中,本文将 VLWM-critic 模型与基准苏格拉底 LLM 进行比较。本文的模型在模型大小和准确性之间实现了帕累托最优平衡。重要的是,这一评估对 VLWM-critic 模型构成了零样本场景,因为基于变化字幕的目标描述和作为行动步骤的详细视频字幕都不是训练语料库的一部分。
结论
本工作介绍了视觉语言世界模型(VLWM),这是一种基础模型,能够直接在语言空间中学习表示和预测世界动态,从而实现可解释且高效的高级规划。通过将原始视频压缩为分层的字幕树,并将其优化为结构化的目标、动作和世界状态变化轨迹,VLWM 架起了感知驱动的视觉语言模型(VLMs)与推理导向的大语言模型(LLMs)之间的桥梁。其双模式设计支持通过直接策略解码进行快速反应的系统1规划,以及通过自监督评论指导的成本最小化进行反思的系统2规划,这使模型能够在内部执行试错推理并选择最佳计划。
VLWM 在大量多样的教学和自我中心视频语料库上进行训练,在辅助视觉规划基准上建立了新的最先进成果,在 PlannerArena 的人类偏好评估中展示了卓越的计划质量,并在 RoboVQA 上取得了顶级表现,同时生成可解释的动作-状态展开。此外,评论模型在目标达成检测和程序规划基准上独立表现出色,突显了显式语义成本建模对于基于世界模型推理的价值。综上所述,这些贡献表明,通过直接从大规模自然视频中学习,并在抽象的、非生成的表示空间中进行预测,而非依赖原始像素,视觉语言世界模型(VLWM)可以为感知、推理和规划之间架起强大的接口,推动 AI 助手超越模仿,朝着能够进行稳健、长远决策的反思性代理迈进。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/jwmog-cIrJ1dYYrIAplKPA
