
世界模型的架构总结 原创
在开始前我们先来分析一下当下的AI技术发展路线:
1. 目前来看LLM/MLLM等类似GPT的decoder架构仍是主流,各家更新一代比一代快;
2. 由sora带火的diffusion model类生成式模型还处于是否是“world simulator”的争议中悄悄发育;
3. Deepmind、Meta、Nvidia等几家在“孤独地”推进世界模型,还没有真正进入大众视野应用。
上述的路线中哪一条可能是真正可以在未来通往AGI的路呢?
目前业内主要的观点还是第三种。
Meta首席AI科学家_Yann LeCun_甚至预测“再过五年可能没有人会再使用目前这种(通过在离散的词元(token)空间中进行预测)的纯LLM范式”;
近日Google的开发负责人和Deepmind CEO在谈论Genie3的访谈中也提到了一个更大的视角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。
Genie3的效果不知道大家看没有,确实有些震撼:720p的清晰度、24FPS的实时生成速率,以及提示式世界事件(Promptable world Events),这意味着可以支持第一人称视角导航和实时互动,完全在虚拟世界中生活了。
这背后“世界模型”是主要的技术支撑,那么本文就来总结世界模型的架构,下面是一个快捷目录。
一、什么是世界模型?
二、世界模型跟传统AI的区别
三、为什么世界模型难训练?与LLM / MLLM的区别
四、世界模型的核心架构
五、目前各家世界模型的架构介绍
六、总结,世界模型到底是在训练什么?
一、什么是世界模型?
1. 世界模型的概念
世界模型的概念源于认知科学和机器人学,它强调AI系统需要具备对物理世界的直观理解,而不仅仅是处理离散的符号或数据 。
世界模型主要分为理解世界和预测未来两大视角——即构建内部表示以理解世界机制,预测未来状态以模拟和指导决策。这个视角可以辅助大家去理解很多世界模型的架构。
2. 权威定义解析
1)David Ha和Jürgen Schmidhuber:生成式神经网络模型
他们在2018年开创性论文《Recurrent World Models Facilitate Policy Evolution》中将世界模型定义为一个生成式模型,该模型能够理解和模拟环境,学习行为策略,并将学到的知识迁移到新的情境中。
他们的模型由两个核心部分组成:一个变分自编码器(VAE)和一个循环神经网络RNN:
- VAE负责理解世界,捕捉环境的关键特征,将高维的感官输入(如图像)压缩成一个低维的潜在向量(latent vector);
- RNN负责预测未来,学习这些潜在向量在时间序列上的动态变化,即预测在给定当前状态和动作的情况下,下一个状态会是什么。
2)Yann LeCun:基于编码器与预测器的系统
Yann LeCun定义的核心在于,世界模型不仅仅是一个生成模型,更是一个包含了感知、记忆、预测和规划等多个模块的完整认知架构。
模型由两个核心部分组成:编码器(Encoder)和预测器(Predictor):
- 编码器(Encoder)负责理解世界 ,将高维的观测数据(如图像)转换成一个低维的、抽象的表示h(t)。这个表示捕捉了环境的关键信息,同时过滤掉了不相关的细节;
- 预测器(Predictor)负责预测未来,接收当前的表示、之前的世界状态估计、一个预设的行动以及一个潜在变量,然后预测下一个世界的状态。
二、世界模型跟传统AI的区别
1. 世界模型的能力
世界模型的核心思想在于赋予人工智能系统一种类似人类的“想象力”和“规划”能力。
具体来说,世界模型允许智能体在“心智”中模拟未来可能发生的情景,评估不同行动方案的潜在结果,并选择最优的策略来实现其目标。这种在模拟环境中进行“思想实验”的能力,极大地提高了学习效率和决策的鲁棒性。
2. 跟传统基于实际环境的强化学习的具体区别
这里有可能提起强化学习会引起一些argue,强化学习虽然也与环境的动态变化有关,但其学习方式通常是“试错”。
智能体在环境中通过不断尝试不同的行动,并根据获得的奖励或惩罚来调整其策略。这种方式在简单环境中可能有效,但在复杂、高维度的现实世界环境中,试错学习的成本极高,甚至可能带来灾难性的后果。
世界模型则提供了一种更高效的学习方式。它通过观察和学习环境的动态规律,在内部构建一个模拟器。智能体可以在这个模拟器中进行大量的“想象”和“规划”,从而找到最优的行动序列,而无需在真实环境中进行大量的试错 。
下面举个自动驾驶中具体的例子作为说明,
VLM / VLA 相当于背熟了一本《汽车驾驶全书》,知道“遇到湿滑路面需要提前刹车”这条规则,当从输入语义或图像的token中获取到“湿滑路面”时会提前进行刹车制动;
而一个具备世界模型的自动驾驶系统,可以在遇到湿滑路面时,预判到如果车速过快可能会导致刹车距离延长,从而提前减速,避免危险;世界模型的决策需要源于AI内部对物理规律(如摩擦力、惯性)的模拟,而不是简单地记忆“湿滑路面要减速”这条规则。
三、为什么世界模型难训练?与LLM / MLLM的区别
上面说了很多,感觉世界模型真的很重要,那么为啥只有几家大厂在“孤独地”推进呢?
夕小瑶的这篇文章从Genie 3看懂“世界模型”:为什么说它比语言模型更接近AGI 解释得非常透彻,推荐大家去看看。
这里做个简单的总结,world model通过视频训练——>理解世界,需要学习视频中的物理规律,空间动态以及因果。跟LLM / MLLM 相比难训练的主要原因包括三方面:训练成本,算法以及架构。
1. 训练成本
这个应该是最根源的问题。
LLM / MLLM :现存互联网数据多易爬取,成本低,主要是一维序列与NTP任务。
World model:训练数据要求较高,除视频数据本身外还需要包括图像注释,动作轨迹、物理动态、空间结构、因果链条等方面的标注;标注需要涉及时序、空间一致性、以及角色之间的交互与反馈,需要把世界一帧一帧讲清楚。
此外处理数据的过程也非常繁复,包括拆分—>去噪—>注释—>去重—>分词—>空间结构—>跨模态对齐—>token压缩等。
2. 算法复杂度
LLM / MLLM :通过NTP任务生成合理的句子,可能出现幻觉,但如果能自圆其说结果也能看。
World model :生成的视频需要满足因果成立、物理合理、空间连续且维持世界的逻辑闭环,内部需要有完整模拟器能预测结果、想象未来、评估路径、对未知场景做出合理回应。
3. 架构
LLM / MLLM :基于Transformer 架构和算力稳健发展,上下文窗口越来越大,模型越来越深。
World model :Transformer 的堆砌难以解决更复杂的问题:
- 既要看图像,又要预测运动
- 既要记住过去,还要能推演未来
- 既要生成细节,又要逻辑连贯
- 还得考虑“动作—反馈—后果”的因果链条
四、 世界模型的核心架构
1. 视觉模型(Vision Model, V):感知与表征
1) 功能
视觉模型是世界模型架构中的第一个关键组件,其核心功能是处理来自外部世界的高维度感官输入,并将其压缩成一个低维度的潜在向量latent vector表示 。
视觉模型的首要任务就是对原始感官数据(摄像头、激光雷达等传感器接收到的数据)进行“降维”和“提纯”,提取出其中最关键、最本质的特征,形成一个紧凑而富有信息量的潜在表示。
这部分需要捕捉环境中物体的位置、形状、运动状态等关键信息,同时忽略了那些不重要的细节,将关键信息编码到潜在向量中,为后续模块提供一个清晰、简洁的世界表征,使得整个系统能够更高效地进行学习和决策。
这个压缩过程不仅减少计算负担,更重要的是,它帮助智能体抓住了世界的本质规律,从而能够更好地进行泛化,应对那些从未见过的场景。
2)实现
通常这部分使用变分自编码器(VAE)来实现,VAE包括编码器和解码器:
- 编码器负责将输入数据(如图像,点云等数据)映射到一个潜在空间中的概率分布(通常是一个高斯分布),而不是一个确定的点。这个概率分布的均值和方差构成了潜在向量;
- 解码器则负责从这个潜在向量中重建出原始的输入数据。
2. 记忆模型(Memory Model, M):学习与预测
1) 功能
记忆模型主要功能是学习环境在时间维度上的动态变化规律,并基于当前的状态和行动来预测未来的状态 。
如果说视觉模型负责理解“世界是什么样”,那么记忆模型则负责理解“世界将如何变化”。
记忆模型起到了一个“承上启下”的作用,通过接收来自视觉模型的潜在表示(即对当前世界状态的压缩描述)以及控制器发出的行动指令,来学习这两者与未来世界状态之间的因果关系。
当智能体需要完成一个复杂任务时,它可以利用记忆模型来“想象”出执行不同行动序列后可能导致的未来场景,从而选择出最有可能成功的行动方案。
举个例子就是,在自动驾驶场景中,记忆模型需要学习“当车辆以某个速度行驶,并且方向盘转动某个角度时,车辆在下一秒的位置和朝向将会如何变化”。通过不断地学习和积累这些动态知识,记忆模型就能够在智能体的“脑海”中构建起一个关于世界如何运作的预测模型。
2)实现
RNN / LSTM / GRU与混合密度网络(MDN):
- RNN / LSTM / GRU负责建模时间序列上的依赖关系;
- 混合密度网络(Mixture Density Network, MDN)通过学习多个高斯分布的混合来近似任意复杂的概率分布,通过从这个概率分布中进行采样,智能体就可以生成多个可能的未来场景,从而更好地应对不确定性。
3. 控制器(Controller, C):决策与规划
1)功能
基于视觉模型根据提供的当前世界表征和记忆模型预测的未来状态,来做出最优的决策和规划 。控制器并不直接与原始的外部世界交互,而是在一个由视觉模型和记忆模型共同构建的内部模拟世界中进行“思考”和“规划”。
这种在内部世界中进行决策的方式,是世界模型架构相比于传统AI方法的一大优势。而控制器则可以在一个安全、高效的模拟环境中进行仿真训练,极大缩小了成本。
它可以通过向记忆模型提出各种“假设性问题”(例如,“如果我向左转,会发生什么?”),来评估不同行动可能带来的结果,并选择那个最有可能导向成功的行动。这个过程可以反复迭代,使得控制器能够规划出复杂的、多步的行动序列,以完成长期目标。
2)实现
轻量级策略网络,即一个小型的FFN,输入是当前的潜在状态(来自视觉模型)和记忆模型的隐藏状态(包含了对未来的预测信息),输出是一个行动指令(例如,机器人的关节角度、自动驾驶汽车的方向盘转角和油门)。
控制器的训练通常采用强化学习的方法。但与传统的强化学习不同,控制器是在世界模型构建的模拟环境中进行训练的。
训练过程如下:控制器从某个初始状态开始,根据当前的世界表征选择一个行动;这个行动被输入到记忆模型中,记忆模型预测出下一个世界的状态;然后,根据这个新的状态,环境会给出一个奖励(或惩罚);控制器根据这个奖励来更新其策略,以便在未来能够获得更高的累积奖励。
整个过程都在模拟环境中进行,因此可以快速地执行数百万次的迭代,从而高效地学习到最优策略。一旦控制器在模拟环境中训练完成,它就可以被部署到真实世界中,与真实的环境进行交互。
目前各大OEM也普遍在推车端VLA,云端world model的智驾方案,可以看出world model确实是有很大的发展潜力。
五、目前各家世界模型的架构介绍
1. DeepMind 的 DreamerV3
DreamerV3 不使用transformer,用的是循环状态空间模型(RSSM), 与RNN单一的确定性隐藏状态 h_t 相比,RSSM将确定性状态 h_t 与随机潜在状态 z_t 分离,通过 z_t 的概率分布显式建模。
2. NVIDIA 的 Cosmos-Reason1
Cosmos-Reason1使用Mamba + MLP + Transformer混合体:
- Mamba负责捕捉长距离依赖,提高效率;
- Transformer负责对短距离依赖和高层次抽象进行注意力机制捕获;
- MLP在Mamba层和Transformer层之间提供非线性变换。
3. Meta 的 NWM
Meta 的 NWM使用CDiT,一种能减少 FLOPs 的条件扩散网络:
CDiT基于扩散的学习过程,使用交叉注意力而非所有标记使用自注意力的,降低注意力复杂度,扩展到更长的上下文窗口和更大的模型。
六、总结,世界模型到底是在训练什么?
LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)从像素层面的建模,转向预测隐藏状态的抽象表示,强调的是“预测未来潜在表征”的能力,而非逐像素生成。这种思路与人类认知极为相似——我们并不是逐帧还原画面,而是基于抽象模型推测世界会如何演化。
AGI的目标是创造出能够像人类一样思考、学习和解决各种问题的智能系统。而人类智能的一个核心特征,就是具备一个关于世界的丰富而深刻的内部模型。世界模型可以理解周围的环境,预测未来的事件,并进行复杂的规划和推理。
本篇简单总结了世界模型的架构,这里再给一些个人的理解,世界模型其实本质更像是在训练人的元认知抽象能力,因此未来为一些针对COT的强化学习(类似于腾讯提出的RLVMR框架)研究很有潜力;后续大家也可以多多关注这块。
参考文献
[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)
[2] 从Genie 3看懂“世界模型”:为什么说它比语言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)
[3] 【世界模型】一文读懂世界模型:从核心原理到前沿争议 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)
本文转载自瓦力算法学研所,作者:喜欢瓦力的卷卷
