世界模型的架构总结原创

shizhi02

发布于 2025-8-19 09:35

浏览

0收藏

在开始前我们先来分析一下当下的AI技术发展路线：

1. 目前来看LLM/MLLM等类似GPT的decoder架构仍是主流，各家更新一代比一代快；

2. 由sora带火的diffusion model类生成式模型还处于是否是“world simulator”的争议中悄悄发育；

3. Deepmind、Meta、Nvidia等几家在“孤独地”推进世界模型，还没有真正进入大众视野应用。

上述的路线中哪一条可能是真正可以在未来通往AGI的路呢？

目前业内主要的观点还是第三种。

Meta首席AI科学家_Yann LeCun_甚至预测“再过五年可能没有人会再使用目前这种（通过在离散的词元（token）空间中进行预测）的纯LLM范式”；

近日Google的开发负责人和Deepmind CEO在谈论Genie3的访谈中也提到了一个更大的视角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。

世界模型的架构总结-AI.x社区

Genie3的效果不知道大家看没有，确实有些震撼：720p的清晰度、24FPS的实时生成速率，以及提示式世界事件（Promptable world Events），这意味着可以支持第一人称视角导航和实时互动，完全在虚拟世界中生活了。

这背后“世界模型”是主要的技术支撑，那么本文就来总结世界模型的架构，下面是一个快捷目录。

一、什么是世界模型？

二、世界模型跟传统AI的区别

三、为什么世界模型难训练？与LLM / MLLM的区别

四、世界模型的核心架构

五、目前各家世界模型的架构介绍

六、总结，世界模型到底是在训练什么？

一、什么是世界模型？

1. 世界模型的概念

世界模型的概念源于认知科学和机器人学，它强调AI系统需要具备对物理世界的直观理解，而不仅仅是处理离散的符号或数据。

世界模型主要分为理解世界和预测未来两大视角——即构建内部表示以理解世界机制，预测未来状态以模拟和指导决策。这个视角可以辅助大家去理解很多世界模型的架构。

世界模型的架构总结-AI.x社区

2. 权威定义解析

1）David Ha和Jürgen Schmidhuber：生成式神经网络模型

他们在2018年开创性论文《Recurrent World Models Facilitate Policy Evolution》中将世界模型定义为一个生成式模型，该模型能够理解和模拟环境，学习行为策略，并将学到的知识迁移到新的情境中。

他们的模型由两个核心部分组成：一个变分自编码器（VAE）和一个循环神经网络RNN：

VAE负责理解世界，捕捉环境的关键特征，将高维的感官输入（如图像）压缩成一个低维的潜在向量（latent vector）；
RNN负责预测未来，学习这些潜在向量在时间序列上的动态变化，即预测在给定当前状态和动作的情况下，下一个状态会是什么。

2）Yann LeCun：基于编码器与预测器的系统

Yann LeCun定义的核心在于，世界模型不仅仅是一个生成模型，更是一个包含了感知、记忆、预测和规划等多个模块的完整认知架构。

模型由两个核心部分组成：编码器（Encoder）和预测器（Predictor）：

编码器（Encoder）负责理解世界，将高维的观测数据（如图像）转换成一个低维的、抽象的表示h(t)。这个表示捕捉了环境的关键信息，同时过滤掉了不相关的细节；
预测器（Predictor）负责预测未来，接收当前的表示、之前的世界状态估计、一个预设的行动以及一个潜在变量，然后预测下一个世界的状态。

二、世界模型跟传统AI的区别

1. 世界模型的能力

世界模型的核心思想在于赋予人工智能系统一种类似人类的“想象力”和“规划”能力。

具体来说，世界模型允许智能体在“心智”中模拟未来可能发生的情景，评估不同行动方案的潜在结果，并选择最优的策略来实现其目标。这种在模拟环境中进行“思想实验”的能力，极大地提高了学习效率和决策的鲁棒性。

2. 跟传统基于实际环境的强化学习的具体区别

这里有可能提起强化学习会引起一些argue，强化学习虽然也与环境的动态变化有关，但其学习方式通常是“试错”。

智能体在环境中通过不断尝试不同的行动，并根据获得的奖励或惩罚来调整其策略。这种方式在简单环境中可能有效，但在复杂、高维度的现实世界环境中，试错学习的成本极高，甚至可能带来灾难性的后果。

世界模型则提供了一种更高效的学习方式。它通过观察和学习环境的动态规律，在内部构建一个模拟器。智能体可以在这个模拟器中进行大量的“想象”和“规划”，从而找到最优的行动序列，而无需在真实环境中进行大量的试错。

下面举个自动驾驶中具体的例子作为说明，

VLM / VLA 相当于背熟了一本《汽车驾驶全书》，知道“遇到湿滑路面需要提前刹车”这条规则，当从输入语义或图像的token中获取到“湿滑路面”时会提前进行刹车制动；

而一个具备世界模型的自动驾驶系统，可以在遇到湿滑路面时，预判到如果车速过快可能会导致刹车距离延长，从而提前减速，避免危险；世界模型的决策需要源于AI内部对物理规律（如摩擦力、惯性）的模拟，而不是简单地记忆“湿滑路面要减速”这条规则。

三、为什么世界模型难训练？与LLM / MLLM的区别

上面说了很多，感觉世界模型真的很重要，那么为啥只有几家大厂在“孤独地”推进呢？

夕小瑶的这篇文章从Genie 3看懂“世界模型”：为什么说它比语言模型更接近AGI 解释得非常透彻，推荐大家去看看。

这里做个简单的总结，world model通过视频训练——>理解世界，需要学习视频中的物理规律，空间动态以及因果。跟LLM / MLLM 相比难训练的主要原因包括三方面：训练成本，算法以及架构。

1. 训练成本

这个应该是最根源的问题。

LLM / MLLM ：现存互联网数据多易爬取，成本低，主要是一维序列与NTP任务。

World model：训练数据要求较高，除视频数据本身外还需要包括图像注释，动作轨迹、物理动态、空间结构、因果链条等方面的标注；标注需要涉及时序、空间一致性、以及角色之间的交互与反馈，需要把世界一帧一帧讲清楚。

此外处理数据的过程也非常繁复，包括拆分—>去噪—>注释—>去重—>分词—>空间结构—>跨模态对齐—>token压缩等。

2. 算法复杂度

LLM / MLLM ：通过NTP任务生成合理的句子，可能出现幻觉，但如果能自圆其说结果也能看。

World model ：生成的视频需要满足因果成立、物理合理、空间连续且维持世界的逻辑闭环，内部需要有完整模拟器能预测结果、想象未来、评估路径、对未知场景做出合理回应。

3. 架构

LLM / MLLM ：基于Transformer 架构和算力稳健发展，上下文窗口越来越大，模型越来越深。

World model ：Transformer 的堆砌难以解决更复杂的问题：

既要看图像，又要预测运动
既要记住过去，还要能推演未来
既要生成细节，又要逻辑连贯
还得考虑“动作—反馈—后果”的因果链条

四、世界模型的核心架构

1. 视觉模型（Vision Model, V）：感知与表征

1）功能

视觉模型是世界模型架构中的第一个关键组件，其核心功能是处理来自外部世界的高维度感官输入，并将其压缩成一个低维度的潜在向量latent vector表示。

视觉模型的首要任务就是对原始感官数据（摄像头、激光雷达等传感器接收到的数据）进行“降维”和“提纯”，提取出其中最关键、最本质的特征，形成一个紧凑而富有信息量的潜在表示。

这部分需要捕捉环境中物体的位置、形状、运动状态等关键信息，同时忽略了那些不重要的细节，将关键信息编码到潜在向量中，为后续模块提供一个清晰、简洁的世界表征，使得整个系统能够更高效地进行学习和决策。

这个压缩过程不仅减少计算负担，更重要的是，它帮助智能体抓住了世界的本质规律，从而能够更好地进行泛化，应对那些从未见过的场景。

2）实现

通常这部分使用变分自编码器（VAE）来实现，VAE包括编码器和解码器：

编码器负责将输入数据（如图像，点云等数据）映射到一个潜在空间中的概率分布（通常是一个高斯分布），而不是一个确定的点。这个概率分布的均值和方差构成了潜在向量；
解码器则负责从这个潜在向量中重建出原始的输入数据。

2. 记忆模型（Memory Model, M）：学习与预测

1）功能

记忆模型主要功能是学习环境在时间维度上的动态变化规律，并基于当前的状态和行动来预测未来的状态。

如果说视觉模型负责理解“世界是什么样”，那么记忆模型则负责理解“世界将如何变化”。

记忆模型起到了一个“承上启下”的作用，通过接收来自视觉模型的潜在表示（即对当前世界状态的压缩描述）以及控制器发出的行动指令，来学习这两者与未来世界状态之间的因果关系。

当智能体需要完成一个复杂任务时，它可以利用记忆模型来“想象”出执行不同行动序列后可能导致的未来场景，从而选择出最有可能成功的行动方案。

举个例子就是，在自动驾驶场景中，记忆模型需要学习“当车辆以某个速度行驶，并且方向盘转动某个角度时，车辆在下一秒的位置和朝向将会如何变化”。通过不断地学习和积累这些动态知识，记忆模型就能够在智能体的“脑海”中构建起一个关于世界如何运作的预测模型。

2）实现

RNN / LSTM / GRU与混合密度网络（MDN）：

RNN / LSTM / GRU负责建模时间序列上的依赖关系；
混合密度网络（Mixture Density Network, MDN）通过学习多个高斯分布的混合来近似任意复杂的概率分布，通过从这个概率分布中进行采样，智能体就可以生成多个可能的未来场景，从而更好地应对不确定性。

3. 控制器（Controller, C）：决策与规划

1）功能

基于视觉模型根据提供的当前世界表征和记忆模型预测的未来状态，来做出最优的决策和规划。控制器并不直接与原始的外部世界交互，而是在一个由视觉模型和记忆模型共同构建的内部模拟世界中进行“思考”和“规划”。

这种在内部世界中进行决策的方式，是世界模型架构相比于传统AI方法的一大优势。而控制器则可以在一个安全、高效的模拟环境中进行仿真训练，极大缩小了成本。

它可以通过向记忆模型提出各种“假设性问题”（例如，“如果我向左转，会发生什么？”），来评估不同行动可能带来的结果，并选择那个最有可能导向成功的行动。这个过程可以反复迭代，使得控制器能够规划出复杂的、多步的行动序列，以完成长期目标。

2）实现

轻量级策略网络，即一个小型的FFN，输入是当前的潜在状态（来自视觉模型）和记忆模型的隐藏状态（包含了对未来的预测信息），输出是一个行动指令（例如，机器人的关节角度、自动驾驶汽车的方向盘转角和油门）。

控制器的训练通常采用强化学习的方法。但与传统的强化学习不同，控制器是在世界模型构建的模拟环境中进行训练的。

训练过程如下：控制器从某个初始状态开始，根据当前的世界表征选择一个行动；这个行动被输入到记忆模型中，记忆模型预测出下一个世界的状态；然后，根据这个新的状态，环境会给出一个奖励（或惩罚）；控制器根据这个奖励来更新其策略，以便在未来能够获得更高的累积奖励。

整个过程都在模拟环境中进行，因此可以快速地执行数百万次的迭代，从而高效地学习到最优策略。一旦控制器在模拟环境中训练完成，它就可以被部署到真实世界中，与真实的环境进行交互。

目前各大OEM也普遍在推车端VLA，云端world model的智驾方案，可以看出world model确实是有很大的发展潜力。

五、目前各家世界模型的架构介绍

1. DeepMind 的 DreamerV3

DreamerV3 不使用transformer，用的是循环状态空间模型（RSSM），与RNN单一的确定性隐藏状态 h_t 相比，RSSM将确定性状态 h_t 与随机潜在状态 z_t 分离，通过 z_t 的概率分布显式建模。

世界模型的架构总结-AI.x社区

2. NVIDIA 的 Cosmos-Reason1

Cosmos-Reason1使用Mamba + MLP + Transformer混合体：

世界模型的架构总结-AI.x社区

Mamba负责捕捉长距离依赖，提高效率；
Transformer负责对短距离依赖和高层次抽象进行注意力机制捕获；
MLP在Mamba层和Transformer层之间提供非线性变换。

3. Meta 的 NWM

Meta 的 NWM使用CDiT，一种能减少 FLOPs 的条件扩散网络：

世界模型的架构总结-AI.x社区

CDiT基于扩散的学习过程，使用交叉注意力而非所有标记使用自注意力的，降低注意力复杂度，扩展到更长的上下文窗口和更大的模型。

六、总结，世界模型到底是在训练什么？

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture）从像素层面的建模，转向预测隐藏状态的抽象表示，强调的是“预测未来潜在表征”的能力，而非逐像素生成。这种思路与人类认知极为相似——我们并不是逐帧还原画面，而是基于抽象模型推测世界会如何演化。

AGI的目标是创造出能够像人类一样思考、学习和解决各种问题的智能系统。而人类智能的一个核心特征，就是具备一个关于世界的丰富而深刻的内部模型。世界模型可以理解周围的环境，预测未来的事件，并进行复杂的规划和推理。

本篇简单总结了世界模型的架构，这里再给一些个人的理解，世界模型其实本质更像是在训练人的元认知抽象能力，因此未来为一些针对COT的强化学习（类似于腾讯提出的RLVMR框架）研究很有潜力；后续大家也可以多多关注这块。

参考文献

[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)

[2] 从Genie 3看懂“世界模型”：为什么说它比语言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)

[3] 【世界模型】一文读懂世界模型：从核心原理到前沿争议 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)

本文转载自瓦力算法学研所，作者：喜欢瓦力的卷卷

标签

51CTO

51CTO博客

51CTO学堂

世界模型的架构总结原创