
AI世界模型全面综述:理解世界还是预测未来? 精华
当AI不仅能生成逼真视频,还能“理解”物理规则、“预测”社会互动时,世界模型正在重塑人工智能的边界。从自动驾驶中实时路况模拟,到机器人通过“认知地图”规划路径,再到虚拟社会中智能体的策略博弈——这项技术如何让机器像人类一样“思考世界”?本文将揭开世界模型的核心原理与未来图景,带你看看AI如何从“数据驱动”走向“世界理解”。
随着GPT-4、Sora等多模态模型的兴起,人工智能正从单一任务向“理解和模拟真实世界”迈进。世界模型作为连接感知与决策的核心框架,既能通过大语言模型捕捉常识知识(如空间、社会规则),又能利用视频生成技术预测物理动态(如自动驾驶中的路况变化)。本文通过系统梳理其技术脉络和应用场景,为通用人工智能(AGI)的发展提供了关键理论支撑,对提升机器人适应性、自动驾驶安全性和社会系统模拟能力具有重要指导意义。
摘要&解读
由于多模态大型语言模型(如GPT-4)和视频生成模型(如Sora)的发展,世界模型的概念受到了广泛关注,这些模型是实现通用人工智能的核心。本综述对世界模型的相关文献进行了全面回顾。一般来说,世界模型被视为理解世界当前状态或预测其未来动态的工具。本文对世界模型进行了系统分类,重点介绍了两个主要功能:(1)构建内部表示以理解世界机制,(2)预测未来状态以模拟和指导决策。首先,我们考察了这两类的当前进展。然后,我们探讨了世界模型在关键领域的应用,包括自动驾驶、机器人技术和社会模拟,重点关注每个领域如何利用这些方面。最后,我们概述了关键挑战,并对潜在的未来研究方向提供了见解。
研究背景:
- 学科交叉需求:通用人工智能(AGI)需要机器具备类似人类的世界理解能力,融合心理学(心理模型)、计算机科学(生成模型)、物理学(动态模拟)等多领域知识。
- 数据与计算驱动:多模态大模型(GPT-4、Sora)的爆发式发展,为世界模型提供了海量训练数据和强大表征能力,但也暴露了因果推理不足、模拟与现实脱节等问题。
- 应用场景倒逼:自动驾驶需处理长尾场景(如极端天气)、机器人需适应未知环境、社会科学需模拟复杂人类行为,传统模型难以满足泛化需求。
研究贡献:
- 双维度分类框架:首次将世界模型明确分为“隐式表示”(如LLM常识建模)和“未来预测”(如视频扩散模拟),理清技术脉络。
- 多领域应用全景:系统性梳理自动驾驶(如BEVFormer感知+DriveDreamer模拟)、机器人(如GR-2视频-动作关联)、社会模拟(如AI Town智能体涌现行为)的差异化需求与技术适配。
- 挑战与方向界定:提出物理规则建模、社会行为模拟、模拟效率优化、伦理安全等四大挑战,并建议生成模型与物理模拟器融合、具身智能自我强化循环等解决方案。
实现设计:
隐式表示技术:
- 决策支持:基于Transformer的MDP建模,将强化学习任务转化为“下一标记预测”问题,实现跨任务泛化。
- 语言赋能:LLM通过“认知地图”神经元编码空间关系(如LLama2的“空间神经元”),结合多专家协作框架(如多LLM智能体讨论决策)提升复杂场景推理。
未来预测技术:
- 视频生成:扩散模型(如NUWA-XL)结合“粗到细”架构生成分钟级长视频,Sora通过3D场景一致性建模实现物理动态模拟。
- 具身环境:从视觉模拟(如AI2-THOR)升级到多模态具身环境(如AVLEN融合视觉+语言+音频),动态环境模型(如UniSim)支持动作条件生成。
跨领域应用:
- 自动驾驶:BEVFormer融合多摄像头视觉生成鸟瞰图,OccSora通过4D占据网格预测交通动态。
- 社会模拟:EconAgent基于LLM智能体模拟劳动力市场与消费行为,复现宏观经济波动规律。
实验结果:
模型能力验证:
- Sora生成的视频符合物理规则(如物体运动轨迹、光影变化),但在流体动力学等复杂物理模拟中仍有误差。
- LLM在心理理论任务(如识别讽刺、错误信念)中接近人类水平,但高阶社会推理(如复杂协作)仍有限。
应用效果:
- 自动驾驶模拟模型(如GAIA-1)可生成逼真交通场景,减少90%以上的真实路测数据需求。
- 机器人模型(如DayDreamer)在现实环境中仅需数小时互动即可学会行走,样本效率提升千倍。
局限性:
- 现有世界模型对反事实场景(如“假设性物理干预”)的模拟能力不足,依赖数据驱动导致泛化受限。
- 社会模拟中智能体的行为多样性仍低于真实人类,缺乏动态社会规范演化机制。
1.引言
长期以来,科学界一直渴望开发一个统一的模型,能够复制世界的基本动态,以追求通用人工智能(AGI)[98]。2024年,多模态大型语言模型(LLMs)和Sora[130]的出现加剧了关于此类世界模型的讨论。尽管这些模型显示出捕捉世界知识的新兴能力——例如Sora生成的视频似乎完全符合物理定律——但关于它们是否真正称得上是全面的世界模型的问题仍然存在。因此,随着我们期待人工智能时代的新突破,对世界模型研究的最新进展、应用和未来方向进行系统回顾既及时又必要。
世界模型的定义仍然是一个持续争论的话题,大致分为两种主要观点:理解世界和预测未来。如图1所示,Ha和Schmidhuber[59]的早期工作侧重于对外部世界进行抽象,以深入理解其潜在机制。相比之下,LeCun[98]认为,世界模型不仅应该感知和建模现实世界,还应该具备设想可能的未来状态以指导决策的能力。像Sora这样的视频生成模型代表了一种专注于模拟未来世界演变的方法,因此更符合世界模型的预测方面。这就提出了一个问题:世界模型应该优先考虑理解现在还是预测未来状态。在本文中,我们从这两个角度对文献进行了全面回顾,重点介绍了关键方法和挑战。
世界模型的潜在应用跨越了广泛的领域,每个领域对理解和预测能力都有不同的要求。例如,在自动驾驶中,世界模型需要实时感知路况[195,177]并准确预测其演变[127,167,241],特别关注即时的环境感知和复杂趋势的预测。对于机器人技术,世界模型对于导航[160]、物体检测[183]和任务规划[62]等任务至关重要,需要对外部动态有精确的理解[47],并能够生成交互式的具身环境[132]。在虚拟社会系统的模拟领域,世界模型必须捕捉和预测更抽象的行为动态,如社会互动和人类决策过程。因此,全面回顾这些能力的进展,同时探索未来的研究方向和趋势,既及时又必要。
现有的关于世界模型的综述通常可以分为两类,如表1所示。第一类主要侧重于描述世界模型在特定领域的应用,如视频处理和生成[23,242]、自动驾驶[54,100,209]和基于智能体的应用[242]。第二类[116]侧重于从能够处理各种模态数据的多模态模型到世界模型的技术过渡。然而,这些论文往往缺乏对世界模型究竟是什么以及不同的实际应用需要这些模型什么的系统考察。在本文中,我们旨在正式定义和分类世界模型,回顾最新的技术进展,并探索它们的广泛应用。
本综述的主要贡献可以总结如下:(1)我们提出了一个新的世界模型分类系统,围绕两个主要功能:构建隐式表示以理解外部世界的机制和预测外部世界的未来状态。第一类侧重于学习和内化世界知识以支持后续决策的模型的开发,而后者则侧重于从视觉感知中增强物理世界的预测和模拟能力。(2)基于这种分类,我们对各种关键应用领域,包括自动驾驶、机器人和社会模拟,如何强调世界模型的不同方面进行了分类。(3)我们强调了世界模型的未来研究方向和趋势,这些方向和趋势可以适应更广泛的实际应用。
本文的其余部分组织如下。在第2节中,我们介绍了世界模型的背景并提出了我们的分类系统。第3节和第4节分别详细阐述了两类世界模型的当前研究进展。第5节涵盖了世界模型在三个关键研究领域的应用。第6节概述了世界模型的开放性问题和未来方向。
2.背景和分类
在本节中,我们探讨了文献中世界模型的演变概念,并将构建世界模型的工作分为两个不同的分支:内部表示和未来预测。
世界模型的概念最早由Ha等人[58,59]于2018年系统地引入人工智能社区。本文将世界模型概念的起源追溯到1971年建立的“心理模型”的心理学原理[43],该原理提出人类将外部世界抽象为简单的元素及其相互关系来感知它。这一原理表明,从深层次的内部视角来看,我们对世界的描述通常涉及构建一个抽象的表示,无需详细描绘即可满足需求。在这个概念框架的基础上,作者引入了一个受人类认知系统启发的智能体模型,如图1所示。在这个开创性的模型中,智能体从现实世界环境中接收反馈,然后将其转化为一系列输入来训练模型。该模型擅长模拟在外部环境中采取特定行动后的潜在结果。从本质上讲,它创建了一个潜在未来世界演变的心理模拟,并根据这些状态的预测结果做出决策。这种方法与基于模型的强化学习(MBRL)方法非常相似,这两种策略都涉及模型生成外部世界的内部表示。这些表示有助于在现实世界中导航和解决各种决策任务。
在2022年关于自主机器智能发展的前瞻性文章[98]中,Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一个模仿人类大脑结构的框架。如图1所示,JEPA包括一个处理感官数据的感知模块,然后是一个评估这些信息的认知模块,有效地体现了世界模型。该模型允许大脑评估行动并确定适合现实世界应用的最佳响应。LeCun的框架很有趣,因为它结合了双系统概念,模仿了“快”和“慢”思维。系统1涉及直觉、本能的反应:无需世界模型的快速决策,如本能地躲避迎面而来的人。相比之下,系统2采用深思熟虑的、经过计算的推理,考虑到世界的未来状态。它超越了即时的感官输入,模拟潜在的未来场景,例如预测房间在接下来十分钟内的事件并相应地调整行动。这种远见水平需要构建一个世界模型,以根据环境的预期动态和演变有效地指导决策。在这个框架中,世界模型对于理解和表示外部世界至关重要。它使用潜在变量对世界状态进行建模,这些潜在变量捕捉关键信息,同时过滤掉冗余信息。这种方法允许对世界进行高效、简约的表示,便于进行最佳决策和未来场景规划。
模型捕捉世界知识的能力对于它们在广泛的现实世界任务中的有效性能至关重要。在2023年开始的大型语言模型的最新研究中,有几项研究表明存在潜在的世界知识。换句话说,这些模型捕捉到了包括空间和时间理解在内的直觉知识,这使它们能够对现实世界的场景做出预测[57,119]。此外,最近的研究表明,大型语言模型通过认知地图对外部世界进行建模[104],揭示了它们内部嵌入的类似大脑的结构。这些模型甚至可以学习根据先前的经验预测未来事件,从而提高了它们在现实世界中的实用性和适用性。
上述世界模型主要代表了对外部世界的隐性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],这是一个被广泛认为是世界模拟器的视频生成模型。Sora输入真实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还可以产生符合物理规律的结果,比如在汉堡上留下咬痕,并模拟数字环境,例如在《我的世界》游戏中渲染第一人称视角。这些能力表明,Sora不仅模仿了外观,还在模拟场景中对现实世界的动态进行了建模,专注于对动态的世界变化进行真实建模,而不仅仅是表示静态的世界状态。
无论是侧重于学习外部世界的内部表示,还是模拟其运作原理,这些概念都达成了一个共同的共识:世界模型的本质目的是理解世界的动态并预测未来场景。从这个角度出发,我们对世界模型的最新进展进行了全面考察,通过以下视角进行分析,如图1所示。
外部世界的隐式表示(第3节):这一研究类别构建环境变化模型,以实现更明智的决策,最终目标是预测未来状态的演变。它通过将外部现实转化为将这些元素表示为潜在变量的模型来促进隐性理解。此外,随着大型语言模型(LLMs)的出现,以前集中在传统决策任务上的努力通过这些模型对世界知识的详细描述能力得到了显著增强。我们进一步关注将世界知识整合到现有模型中。
外部世界的未来预测(第4节):我们首先探索模拟外部世界的生成模型,主要使用视觉视频数据。这些工作强调生成反映物理世界未来状态的真实视频。随着最近的进展转向开发真正的交互式物理世界,我们进一步研究从视觉表示到空间表示以及从视频到具身的过渡。这包括对与生成反映外部世界的具身环境相关的研究的全面覆盖。
世界模型的应用(第5节):世界模型在各个领域都有广泛的应用,包括自动驾驶、机器人技术和社会模拟。我们探索了这些领域中世界模型的集成如何推进理论研究和实际应用,重点关注它们在现实世界应用中的变革潜力。
3.外部世界的隐式表示
3.1 决策中的世界模型
在决策任务中,了解环境是制定优化策略的主要任务。因此,决策中的世界模型应该包括对环境的全面理解。它使我们能够采取假设的行动而不影响现实环境,从而降低试错成本。在文献中,关于如何学习和利用世界模型的研究最初是在基于模型的强化学习领域提出的。
此外,LLM和MLLM的最新进展也为世界模型的构建提供了全面的基础。随着语言作为一种更通用的表示方式,基于语言的世界模型可以适应更通用的任务。图2展示了在决策任务中利用世界模型的两种方案。
3.1.1 基于模型的强化学习中的世界模型
3.1.2 具有语言主干的世界模型
语言模型的快速发展,尤其是LLM和MLLM,使许多相关应用受益。随着语言作为通用表示主干,基于语言的世界模型在许多决策任务中显示出了潜力。
通过LLM世界模型直接生成动作:LLM已经显示出其显著的推理能力,能够根据相应构建的世界模型在决策任务中直接生成动作。例如,在导航场景中,Yang等人[212]将预训练的文本到视频模型转移到特定领域的机器人控制任务中,成功地用作为LLM输出的文本指令对机器人操作进行注释。Zhou等人[240]进一步通过分解视频生成过程来学习组合世界模型。这种方法实现了对未见过的任务的强大的小样本转移能力。
除了训练或微调专门的基于语言的世界模型外,LLM和MLLM还可以直接部署用于理解决策任务中的世界环境。例如,Long等人[112]提出了一种多专家方案来处理视觉语言导航任务。他们构建了一个标准化的讨论过程,由八位基于LLM的专家参与,以生成最终的移动决策。从专家的讨论和对未来状态的想象中构建一个抽象的世界模型,以支持动作生成。Zhao等人[232]进一步将LLM和开放词汇检测相结合,构建多模态信号与导航关键信息之间的关系。他们提出了一个全图来捕捉局部空间的结构,作为导航任务的世界模型。同时,Yang等人[217]利用基于LLM的想象助手,根据环境感知推断出作为世界模型的全局语义图,以及另一个反思规划器来直接生成动作。
LLM世界模型的模块化使用:尽管将LLM输出直接作为动作在应用和部署中很直接,但这种方案中的决策质量在很大程度上依赖于LLM本身的推理能力。通过将基于LLM的世界模型作为模块与其他有效的规划算法集成,可以进一步提高决策质量。
Xiang等人[203]在世界模型(VirtualHome[139]的模拟器)中部署了一个具身智能体,其中相应的具身知识被注入到LLM中。为了更好地规划和完成特定目标,他们提出了一种目标条件规划方案,其中利用蒙特卡罗树搜索(MCTS)来搜索真正的具身任务目标。Lin等人[106]介绍了一个智能体Dynalang,它学习多模态世界模型来预测未来的文本和图像表示,并学习从想象的模型展开中采取行动。策略学习阶段利用了纯粹基于先前生成的多模态表示的演员-评论家算法。Liu等人[111]进一步将LLM中的推理转化为贝叶斯自适应马尔可夫决策过程(MDP)中的学习和规划。LLM像世界模型一样,在MDP的演员-评论家更新中以内在的方式执行。所提出的RAFA框架在多个复杂的推理任务和环境中表现出显著的性能提升,例如ALFWorld[168]。
3.2 模型学习的世界知识
经过大规模网络文本和书籍的预训练[180,129],大型语言模型掌握了关于现实世界和日常生活常识的广泛知识。这种嵌入的知识被认为是其在现实世界任务中出色泛化能力和表现的关键。例如,研究人员利用大型语言模型的常识进行任务规划[234]、机器人控制[73]和图像理解[110]。此外,Li等人[104]发现,大型语言模型中表示概念的高维向量嵌入了类似大脑结构的世界知识。
与常识和一般知识不同,我们从世界模型的角度关注大型语言模型中的世界知识。如图3所示,根据对象和空间范围,大型语言模型中的世界知识可分为三部分:1)全球物理世界的知识;2)局部物理世界的知识;3)人类社会的知识。
3.2.1 全球物理世界的知识
我们首先介绍专注于分析和理解全球物理世界知识的研究。Gurnee等人[57]首次证明,大型语言模型确实掌握了世界的空间和时间知识,而不仅仅是收集表面统计数据。他们在LLama2[180]中发现了不同的“空间神经元”和“时间神经元”,表明该模型学习了跨多个尺度的空间和时间的线性表示。与以往专注于嵌入空间的观察不同,Manvi等人[119,118]开发了关于文本地址的有效提示,以提取关于真实世界地理空间的直觉知识,并成功提高了模型在各种下游地理空间预测任务中的性能。
尽管大型语言模型确实获取了一些现实世界的隐性知识[57,104],但这些知识的质量仍存在疑问[150,38]。例如,Feng等人[38]发现,大型语言模型中嵌入的城市知识通常是粗略和不准确的。为解决这一问题,他们提出了一个有效的框架来改善大型语言模型中特定城市的城市知识获取。从这些工作中可以看出,尽管大型语言模型已经展示了捕捉现实世界知识某些方面的能力[57,104,150],但显然需要进一步努力来增强这些知识,以实现更广泛和更可靠的现实世界应用。
3.2.2 局部物理世界的知识
与全球物理世界的知识不同,局部物理世界是人类日常生活和大多数现实世界任务的主要环境。因此,理解和建模局部物理世界是构建全面世界模型的一个更关键的课题。我们首先介绍认知地图[179]的概念,它说明了人类大脑如何对外部世界进行建模。尽管最初是为了解释人类的学习过程而开发的,但研究人员已经在大型语言模型中发现了类似的结构[104],并利用这些见解来提高人工模型在学习和理解物理世界方面的效率和性能。
最近的研究探索了通过跨各种环境的类认知地图过程积极鼓励模型学习抽象知识。例如,Cornet等人[52]展示了在简化的《我的世界》环境中使用视觉预测编码通过空间认知地图构建进行学习的有效性。学习后,该模型可以通过知道距离成功预测未来。Lin等人[106]研究了通过世界模型学习过程教模型理解游戏环境,特别是通过预测环境的后续帧。通过这种方式,模型可以在动态环境中生成更好的动作。此外,Jin等人[84]发现,语言模型可以通过预测下一个标记来学习程序语义的紧急表示。
3.2.3 人类社会的知识
除了物理世界,理解人类社会是世界模型的另一个重要方面。一个相关的理论是心理理论[138],它解释了个体如何推断周围他人的心理状态。最近的研究广泛探索了大型语言模型如何发展和展示这种社会世界模型。一条研究路线[174,175]侧重于评估大型语言模型在各种心理理论任务上的表现,以确定它们类似人类的行为是否反映了对社会规则和隐性知识的真正理解。例如,Strachan等人[174]对人类和LLM在各种心理理论能力(如理解错误信念和识别讽刺)上的表现进行了比较分析。尽管他们的发现展示了GPT-4在这些任务中的潜力,但也指出了其局限性,尤其是在检测失礼行为方面。
为解决这些局限性,研究人员提出了创新方法来增强大型语言模型在心理理论方面的能力,以适用于复杂的现实世界应用。Wu等人[198]引入了COKE,它构建了一个知识图,帮助大型语言模型通过认知链明确使用心理理论。此外,Alex等人[194]开发了SimToM,这是一个两阶段提示框架,以提高大型语言模型在心理理论任务中的表现。
4.物理世界的未来预测
4.1 作为视频生成的世界模型
将视频生成集成到世界模型中标志着环境建模领域的重大飞跃[130]。传统的世界模型主要专注于预测离散或静态的未来状态[59,98]。然而,通过生成捕捉连续空间和时间动态的类视频模拟,世界模型[130,211]已经发展到能够处理更复杂、动态的环境。视频生成的这一突破将世界模型的能力推向了一个新的水平。
4.1.1 迈向视频世界模型
视频世界模型是一种计算框架,旨在通过处理视觉上下文中的过去观察和潜在动作来模拟和预测世界的未来状态[130]。这一概念建立在更广泛的世界模型理念之上,力求捕捉环境的动态,并使机器能够预测世界随时间的演变。就视频世界模型而言,重点在于生成表示这些演变状态的视觉帧序列。
作为世界模型的Sora:Sora[130]是一个大规模视频生成模型,是视频世界模型的一个突出例子。它旨在基于各种输入模态(如文本、图像和视频)生成高质量、时间一致的视频序列,长达一分钟。Sora利用强大的神经网络架构(包括编码器-解码器框架和Transformer)的组合来处理多模态输入并生成视觉连贯的模拟。Sora的核心能力在于其生成符合现实世界物理原理的视频的能力,例如表面上的光反射或蜡烛的融化。这些特性表明,Sora有可能作为世界模拟器,根据其对初始条件和模拟参数的理解来预测世界的未来状态。
Sora的局限性:然而,尽管Sora具有令人印象深刻的视频生成能力,但它有几个局限性,使其无法被视为一个功能齐全的世界模型。一个关键限制涉及因果推理[242,23],其中模型在模拟环境中的动态交互方面受到限制。因此,Sora只能基于观察到的初始状态被动生成视频序列,而不能主动干预或预测动作的变化如何改变事件的进程。另一个局限性是,它仍然无法始终如一地再现正确的物理定律[86]。虽然Sora可以生成视觉上逼真的场景,但它在准确模拟现实世界的物理现象(如不同力作用下的物体行为、流体动力学或光和阴影相互作用的准确描绘)方面存在困难。
其他视频世界模型:Sora无疑推动了视频世界模型的大量研究,激发了该领域的大量进展。继Sora在生成高质量视频序列方面取得成功后,许多后续模型被开发出来,每个模型都旨在突破视频世界模型的极限。例如,一些方法已经扩展了视频长度,以实现长视频模拟[220,108,68]。除了传统的语言引导视频生成外,更多的模态正在被集成,如图像和动作[235,202]。研究人员也在将重点从缺乏用户控制的基本视频生成转向旨在复制现实世界决策空间并促进决策的交互式模拟[213,215,197,227,78,202]。几项研究致力于提高动作过渡的平滑度、物理定律的准确性和时间一致性[211,16,148,207]。同时,世界模型的概念已经超越了想象,并被应用于各种特定场景的模拟,包括自然环境、游戏和自动驾驶[108,190,15,120,68,188,11,238,121]。表3总结了视频世界模型在不同方面的改进分类。
4.1.2 视频世界模型的能力
尽管关于像Sora这样的模型是否可以被视为成熟的世界模型的争论仍在继续,但毫无疑问,视频世界模型在推进环境模拟和预测方面具有巨大潜力[242,23,86]。这些模型可以通过生成逼真的动态视频序列,提供一种理解和与复杂环境互动的强大方法。为了达到这种复杂程度,本节概述了视频世界模型必须具备的关键能力,以区别于传统的视频生成模型。
长期预测能力:一个强大的视频世界模型应该能够进行长期预测,在很长一段时间内遵循环境的动态规则。这种能力使模型能够模拟场景的演变,确保生成的视频序列与现实世界的时间进程一致。尽管Sora已经实现了生成具有高质量时间连贯性的一分钟长的视频序列,但它仍远不能模拟现实世界环境中发现的复杂长期动态。最近的努力已经探索了扩展视频长度以捕捉长期依赖关系并提高时间一致性[220,108,68]。
多模态集成:除了语言引导的视频生成外,视频世界模型越来越多地集成其他模态,如图像和动作,以增强真实感和交互性[235,202]。多种模态的集成允许更丰富的模拟,更好地捕捉现实世界环境的复杂性,提高生成场景的准确性和多样性。
交互性:视频世界模型的另一个关键能力是它们的可控性和交互性潜力。理想的模型不仅应该生成逼真的模拟,还应该允许与环境互动。这种交互性涉及模拟不同动作的后果并提供反馈,使模型能够用于需要动态决策的应用。最近的工作侧重于增强对模拟的控制,允许更用户引导的场景探索[215,197]。
多样化环境:最后,视频世界模型正在适应各种特定场景的模拟,包括自然环境、自动驾驶和游戏。这些模型已经超越了基本的视频生成,以复制现实世界的动态并支持广泛的应用[108,190,15]。
4.2 作为具身环境的世界模型
具身环境的世界模型的开发对于模拟和预测智能体如何与外部世界互动和适应至关重要。最初,生成模型专注于模拟世界的视觉方面,使用视频数据捕捉环境的动态变化。最近,重点已经转向创建完全交互式的具身模拟。这些模型不仅表示世界的视觉元素,还纳入了更准确反映现实世界动态的空间和物理交互。通过整合空间表示并从基于视频的模拟过渡到沉浸式具身环境,世界模型现在可以为开发能够与复杂现实世界环境互动的智能体提供更全面的平台。
作为具身环境的世界模型可以分为三类:室内、室外和动态环境,如图4所示,相关工作总结在表4中。可以总结出,目前大多数工作集中在开发静态的现有室内和室外具身环境。一个新兴的趋势是通过生成基于第一人称动态视频的模拟环境的生成模型来预测动态的未来世界。这样的环境可以为训练具身智能体提供灵活和真实的反馈,使它们能够与不断变化的环境互动并提高其泛化能力。
4.2.1 室内环境
室内环境提供了受控的结构化场景,智能体可以在其中执行详细的特定任务,如物体操作、导航和与用户的实时交互[48,134,91,164,17,139,155,201]。建立室内环境的早期工作,如AI2-THOR[91]和Matterport 3D[17],只关注提供视觉信息。这些工作通过提供逼真的设置来构建室内环境,智能体可以在其中练习视觉导航并从事模仿现实生活家庭活动的交互式任务。这些环境强调使用基于视觉的强化学习技术的重要性,使智能体能够根据环境线索优化其决策。通过模拟烹饪或清洁等现实世界任务,这些平台评估智能体在不同类型的空间和物体之间泛化所学行为的能力。
进一步的工作致力于扩展所提供环境的数据模态。其中,iGibson[164]引入激光雷达观测作为额外的信号反馈,有助于智能体更准确地感知环境。AVLEN[134]进一步补充了音频信号,允许智能体在类似家庭的环境中执行物体操作和导航等任务。这里的挑战在于使智能体能够在受限的空间内理解和对包括视觉、语言和声音的多模态输入采取行动。
添加社会维度,像GRUtopia[184]这样的环境将智能体引入必须与物体和NPC互动的空间。在这里,智能体需要了解社会动态,如定位和任务共享,这需要更高级的交互建模形式。这些设置中社会交互模块的纳入表明,智能体可以被训练成在类似人类的社会行为和任务表现之间取得平衡。最近,随着LLM的发展,一些工作[20,216,44]试图提供一个灵活的环境生成管道,支持用语言指令生成任意室内环境。
4.2.2 室外环境
与室内环境相比,创建室外环境[184,45,200,161,37]由于其规模更大和可变性更高而面临更大的挑战。一些现有工作专注于城市环境,如MetaUrban[200],其中智能体被部署在大规模城市环境中导航,在那里它们遇到动态变化的交通、不同的建筑结构和与其他实体的社会互动等挑战。这些任务通常需要使用上下文感知导航算法,使智能体能够根据环境的布局和条件调整其轨迹和行为。然而,MetaUrban中的环境是通过从现有库中检索和组织3D资产创建的。
最近,利用先进的生成技术,UrbanWorld[161]使用3D生成模型显著扩展了室外环境的范围,创建了复杂的、可定制的城市空间,允许更多样化的城市场景。从基于静态资产的环境到生成环境的转变确保了智能体面临更广泛的任务,从在不熟悉的街道布局中导航到与新类型的物体或结构互动。除了上述真实开放世界生成工作外,还有一些虚拟开放世界平台,如MineDOJO[37],通过模拟程序生成的沙盒式环境,进一步扩展了这些挑战。这些平台受到《我的世界》开放世界的启发,推动智能体从事资源收集、建造和生存等任务,需要持续的探索和适应性学习。在这样的环境中训练可以帮助智能体学习广泛的任务和地形知识,使它们能够在各种室外环境中有效运作。
4.2.3 动态环境
动态环境通过利用生成模型创建灵活的实时模拟,标志着从传统静态模拟器的重大演进。与需要手动调整的预定义环境不同,这些模型允许动态创建各种各样的场景,使智能体能够体验多样化的第一人称视角。这种转变为智能体提供了更丰富、更多样化的训练体验,提高了它们在复杂、不可预测的现实世界情况下的适应性和泛化能力。
一个代表性的工作是UniSim[214],它根据空间运动、文本命令和相机参数等输入条件动态生成机器人操作视频序列。利用来自3D模拟、现实世界机器人动作和互联网媒体的多模态数据,该系统生成多样化的、现实的环境,智能体可以在其中练习物体操作和导航等任务。这种方法的关键优势在于其灵活性,允许智能体适应各种场景,而不受静态物理环境的限制。Pandora[202]将UniSim中的机器人动作动态环境生成扩展到更广泛的领域,包括室内和室外场景中的人类和机器人动作。另一个后续工作AVID[149]建立在UniSim的基础上,通过对动作进行条件设定和修改预训练扩散模型的噪声预测,生成动作驱动的视觉序列用于动态环境生成。
除了UniSim的基于视频扩散的框架外,EVA[22]引入了额外的视觉语言模型用于具身视频预测,产生更一致的具身视频预测。至于开放世界动态环境的生成,Streetscapes[29]采用自回归视频扩散模型来模拟城市环境,其中智能体必须应对天气和交通变化等动态挑战。这些环境提供了一致连贯但灵活的城市设置,使智能体面临类似现实世界的可变性。
动态环境的核心趋势是使用生成世界模型,提供可扩展的适应性模拟。这种方法显著减少了环境设置所需的手动工作,允许智能体快速在各种场景中训练。此外,对第一人称训练的关注密切模仿了现实世界的决策,增强了智能体适应不断变化的情况的能力。这些进展是开发支持复杂动态场景中智能体学习的具身环境的关键。
5.应用
5.1 自动驾驶
近年来,随着基于视觉的生成模型[66,173,13]和多模态大型语言模型[109,1]的快速发展,作为理解世界状态和预测其未来趋势的模块的世界模型在自动驾驶领域受到了越来越多的关注。在这种情况下,世界模型被定义为将语言、图像和轨迹等多模态数据作为输入,并以车辆感知数据的形式连续输出未来世界状态的模型[55]。然而,自动驾驶中的世界模型概念早在基于生成的世界模拟器出现之前就已经存在。现代自动驾驶流程可以分为四个主要部分:感知、预测、规划和控制。整个过程可以看作是一个决策流程。正如我们在第3节中讨论的,感知和预测阶段也代表了车辆学习世界的隐式表示的过程。这也可以被视为一种世界模型。因此,在本节中,我们将从学习世界的隐式表示的模块和输出车辆感知数据的世界模拟器两个角度,阐述世界模型在自动驾驶中的应用和发展。
5.1.1 学习隐式表示
自动驾驶车辆通常利用相机、雷达和激光雷达感知真实世界,通过图像、视频数据和点云数据收集信息。在早期决策范式[19,156]中,模型通常将感知数据作为输入,直接输出自动驾驶车辆的运动规划结果。然而,人类驾驶时通常会观察并预测其他交通参与者的当前和未来状态,以确定自身驾驶策略[74]。因此,通过感知数据学习世界的隐式表示并预测周围环境的未来状态,是提升自动驾驶车辆决策可靠性的关键步骤。我们将此过程视为自动驾驶车辆在潜在空间中学习世界模型的体现。
如图5左侧所示,在多模态大模型和端到端自动驾驶技术[71]出现之前,自动驾驶的感知和预测任务通常由不同模块承担,每个模块针对各自任务和数据集进行训练。感知模块处理图像、点云等数据,完成目标检测和地图分割等任务,将感知到的世界投射到抽象几何空间。此外,预测模块通常在这些几何空间内运行,预测周围环境的未来状态,包括交通参与者的轨迹和运动。
感知数据的处理与深度学习技术的发展密切相关,如表5所示。2017年提出的Pointnet[141]首次采用深度学习方法处理点云数据。随着卷积神经网络的进步,以YOLOP[195]和MultiNet[177]为代表的基于图像数据的感知技术应运而生,并在驾驶场景理解任务中表现出色[65,182,96,239]。近年来,Transformer架构在自然语言处理领域崭露头角,该技术也被应用于图像数据理解。BEVFormer[105]利用注意力机制融合多摄像头视角的图像,从鸟瞰视角构建抽象几何空间,并在包括目标检测在内的各种任务中取得了最先进的结果。此外,Transfusion[7]通过交叉注意力方法融合激光雷达和摄像头数据,提高了感知精度。基于感知结果,一系列技术(如RNN[6,243,88]、CNN[136,26,24]和Transformer[75,127,167,241])已被用于编码历史场景信息并预测交通参与者的未来行为。
随着近年来多模态大型语言模型的出现和快速发展,许多研究致力于将这些模型的通用场景理解能力应用于自动驾驶领域。TOKEN[178]将整个交通场景标记为对象级知识,利用语言模型的推理能力处理长尾预测和规划问题;OmniDrive[96]建立了基于LLM的智能体,通过视觉问答涵盖场景描述、反事实推理和决策等多项任务。
5.1.2 世界模拟器
如表5所示,在多模态大模型和基于视觉的生成模型出现之前,交通场景模拟通常在几何空间中进行。这些模拟所依赖的场景数据通常由自动驾驶车辆的感知模块收集或手动构建。这些模拟以几何轨迹的形式表示场景的未来状态[113,103,56,230],需要进一步建模和渲染以生成适合车辆感知的输出。多个模块的级联往往导致信息丢失,并增加了模拟的复杂性,使场景控制更具挑战性。此外,逼真的场景渲染通常需要大量计算资源,这限制了虚拟交通场景生成的效率。
使用基于扩散的视频生成模型作为世界模型部分解决了上述问题。通过在大规模交通场景数据集上训练,扩散模型可以直接生成与现实高度相似的相机感知数据。此外,扩散模型固有的可控性与CLIP[143]等文本-图像对齐方法相结合,使用户能够以简单的方式控制场景生成。GAIA-1[69]和DriveDreamer系列[189,233]是首批采用这种方法构建世界模型的研究。在此基础上,Drive-WM[192]引入了规划任务的闭环控制,而Vista[49]则专注于提高生成结果的分辨率并延长预测持续时间。
除了在视频空间中预测未来状态的方法外,许多其他研究探索了不同形式的车辆感知数据。OccWorld[237]和OccSora[185]通过预测3D占据网格来预测世界的未来状态,而Copilot4D[226]则通过预测雷达点云数据的变化来构建世界模型。与视频数据相比,这些类型的特征更好地反映了交通场景的空间特征。
5.2 机器人技术
世界模型已成为机器人技术中的变革性范式,使机器人能够在复杂环境中有效感知、预测和执行任务。机器人技术的这一革命部分归功于神经网络[181,66]和机器学习算法[159,144]的进步,使机器人能够构建捕捉世界关键组成部分的隐式表示。另一方面,预测模型[41,42]能够直接预测世界的未来状态,超越抽象表示,使机器人能够预见可能的环境变化并主动做出反应。借助上述强大技术,机器人直接与现实世界环境互动并从中学习变得切实可行。如图6所示,LLM[87,218]和世界模型[18,199,64]被视为通往通用人工智能(AGI)的可能路径之一,因为它们可以成为机器理解世界基本规律的起点。我们在表6中总结了机器人领域世界模型的发展。
5.2.1 学习隐式表示
传统的机器人任务(如物体抓取)通常在高度结构化的环境中执行,其中关键组件已被显式建模[90,34],无需机器人独立学习或调整其对世界的理解。然而,当机器人部署在不熟悉的环境中,尤其是在关键特征或动态未被显式建模的环境中时,先前成功的任务可能会失败,因为机器人难以泛化到这些未知特征[122,85]。因此,使机器人能够学习其环境的隐式表示是实现智能的关键第一步。
为了帮助机器人理解世界中的物体,卷积神经网络(CNN)[99,93,51]和视觉Transformer(ViT)[31,183]等视觉模型将实体的视觉特征集成到表示中,使机器人能够识别任务的关键物体。RoboCraft[165]将视觉观察转换为粒子,并通过图神经网络捕捉底层系统的结构。此外,还有一些尝试用于物理空间的感知。PointNet[140,142]首先使用非对称函数对非结构化3D点云进行编码,捕捉环境的空间特征。最近的一项工作[52]将沿局部探索路径获取的观测结果组装成潜在空间中物理空间的全局表示,使机器人能够跟踪并接近特定目标。随着LLM[180,14,32]中语言理解能力的提升,一种使机器人捕捉任务意图的新范式涉及以文本形式描述任务,然后通过LLM获得文本表示[124,50,72,186]。BC-Z[79]利用语言表示作为任务表示,提高了机器人的多任务性能。Text2Motion[107]通过LLM将自然语言指令分解为任务级和运动级计划,以处理复杂的顺序操作任务。
5.2.2 预测环境的未来状态
机器人任务始终是顺序性和长期性的,当前时刻做出的决策可能对未来任务的执行产生深远影响[171]。因此,通过预测其动作将如何影响未来的环境状态,机器人可以避免潜在错误并随着时间的推移提高任务性能。经典的机器人技术使用闭环算法[9,89],利用当前观测来指导动作选择,这导致机器人目光短浅,即使最终意识到采取了错误动作,也可能导致不可逆转的错误。尽管有些方法声称在机器人技术中取得了突破性性能,但它们依赖于基于专家知识的显式动态函数,限制了预测的范围和鲁棒性。MORL[205]引入单调双曲模型来预测更新策略的改进。同时,Trajectron++[152]通过条件变分自动编码器计算未来轨迹的概率分布来预测环境。
最近,使用扩散[36,21,10,64]和Transformer[222,208]作为主干的视频生成模型已成为未来状态预测的流行选择。例如,UniPi[33]将动作预测表述为视频预测问题,并使用初始状态作为显式条件上下文训练受限扩散模型,以实现对未来的准确想象。类似地,VIPER[35]利用对专家视频进行预训练的自回归Transformer,引导机器人正确执行任务,而Genie[15]包括一个动力学模型,该模型使用先前的视频帧和动作预测环境的下一状态。受益于互联网上数百万未标记的视频,GR-2[196,18]在机器人任务上进行了微调,实现了对未来图像的准确预测和机器人动作轨迹的生成。
5.2.3 从模拟到现实世界
深度强化学习在机器人策略学习中表现出色,使机器人能够稳定行走[172,95]、抓取物体[223,30],甚至系鞋带[5](这是一项特别复杂的自主任务)。然而,深度强化学习在样本效率方面并不尽如人意。例如,机器人在现实世界中学习解决魔方需要数万年时间[3],这极大地限制了其现实世界应用。因此,大多数机器人工作基于模拟进行,各种分布式训练技术[151,60]提高了样本收集的效率。尽管模拟效率显著,但在模拟环境中训练有素的机器人在现实世界中往往会失败。这是因为模拟无法完全还原现实世界,训练有素的策略可能在那些分布外的场景中失败。另一方面,对现实世界环境进行准确建模具有挑战性,因为模拟环境通常与现实世界不同,这种差异在长距离决策中会累积,导致策略无法适应世界的变化。
世界模型在帮助机器人处理现实世界中的通用任务方面显示出巨大潜力。NeBula[2]构建了一个信念空间,机器人在其中进行推理和决策,并能适应不同的机器人结构和未知环境;而DayDreamer[199]从离线数据中泛化出世界模型,使机器人能够在数小时内直接在现实世界环境中学习行走。此外,SWIM[120]从人类视频中学习,并在没有任何任务监督的情况下从机器人设置中进行微调,只需不到30分钟的现实世界交互数据。OpenEQA[117]进一步提出了一个关于机器人对环境和任务理解的基准,为现实世界中的具身智能体提供了全面评估。
5.3 社会模拟
“社会模拟”的概念最初在[133]中作为一种原型设计技术引入,旨在帮助设计师创建包含许多不同智能体的虚拟社会计算系统。基于专家定义规则[157,12]或强化学习[236]构建智能体的传统方法面临行为过于简单或缺乏可解释性等问题。然而,LLM的出现为构建更真实的社会模拟提供了变革性工具,实现了更具说服力的典型事实[101]或准确预测。社会模拟可以被视为反映现实世界社会计算系统的一种世界模型。从另一个角度来看,社会模拟中的智能体也会发展出对外部系统的隐式表示,即它们构建了支持其社会行为生成的隐式世界模型。世界模型与社会模拟之间的关系如图7所示,代表性工作的总结见表7。
5.3.1 构建反映现实社会的社会模拟
在LLM智能体迅速崛起的时代,构建逼真的社会模拟系统变得更加可行。社会模拟最著名的例子之一是AI Town[132],这是一个由25个生成式智能体组成的世界模型,本质上形成了一个沙盒社会环境。在这个虚拟社区中,智能体表现出可信的个体行为,在群体层面则出现了类似于现实世界的新兴社会行为。沿着这条路线,越来越多的尝试正在用LLM智能体取代各种社会场景中的人类,实际上形成了各自特定场景的社会模拟。这些工作已在社交网络和合作或竞争游戏等场景中使用了模拟范式[46]。
S3[47]是一项开创性工作,它利用LLM智能体模拟社交网络上的消息传播动态。通过模拟人类情绪、态度和消息转发等社会行为,S3成功地在构建的虚拟社交网络中重现了几个现实世界公共事件的传播动态,结果在质量上与现实无异。类似的研究[131]进一步探索了由LLM智能体主导的社交网络的形成机制,并将其与真实的人类社交网络进行了比较。同样,Xu等人[206]使用LLM智能体玩经典的社交互动游戏“狼人杀”。在模拟过程中,他们观察到了欺骗和对抗等策略行为的出现,揭示了LLM在不完全信息游戏中的潜力。
社会模拟的另一个热门研究领域是经济系统的模拟。EconAgent[101]构建了一个宏观经济系统,其中个体经济行为基于LLM智能体进行模拟,纳入了劳动力市场、消费市场和金融市场等经济关键组成部分。模拟结果重现了典型事实,包括波动的宏观经济指标和与现实世界证据一致的宏观经济规律。EconAgent展示了使用LLM智能体模拟经济决策和构建经济系统的巨大潜力。经济领域社会模拟的其他模拟包括稀缺资源分配[82]和税收系统形成[4]等。
5.3.2 社会模拟中智能体对外部世界的理解
LLM智能体通过存储与外部环境互动获得的观测来建立记忆[229],从而形成对外部世界的隐式表示和基本认知,尤其是在模拟社会场景的背景下。这种认知以文本形式存储在记忆库中,供LLM智能体检索和使用,使其在做出决策时能够访问有用信息并充分利用过去与环境互动的经验知识。
Agent-Pro[228]将其与外部环境(特别是互动任务中的其他智能体)互动的记忆转化为所谓的“信念”。基于这些信念,它做出下一个决策并更新其行为策略。这些信念代表了智能体对环境和其中其他智能体的社会理解,与第3.2节中提到的心理理论相关。其他关于LLM智能体的研究也采用了类似设计。例如,Zhang等人[225]从社会心理学的角度引入反思和辩论机制,用于建模多智能体协作任务。一项更先进的研究GovSim[137]探讨了在由LLM智能体组成的社会中,旨在可持续资源开发的合作行为是否会出现。在这种设置中,每个智能体通过多智能体对话收集关于外部世界和其他智能体行为策略的信息,随后形成自己的高级见解,本质上创建了世界模型的隐式表示。另一个类似的应用场景是交互式群聊[53],其中在遗产纠纷、法庭辩论等四个叙事场景中出现了类似人类的行为和策略。
6.开放性问题和未来方向
超现实生成式AI的最新进展引起了人们对世界模型开发的极大关注,特别是像Sora[130]这样的多模态大模型。尽管创新迅速,但仍有许多重要的开放性问题有待解决。
6.1 物理规则和反事实模拟
世界模型的一个关键目标是学习模拟世界的潜在因果关系,例如环境的物理规则。它们为推断反事实场景的未观察结果提供了重要能力[135],超越了假设数据分布相同的数据驱动预测方法。这些能力对于解决数据稀缺问题至关重要,这在关键任务应用中模拟罕见事件时尤为重要。例如,模拟极端情况对提高自动驾驶AI的鲁棒性至关重要[40]。此外,拥有准确的物理规则模型还可以提高模拟环境的一致性,这对于解决许多应用中的模拟到现实的差距至关重要。人们认为,具有现实物理规则的世界模型是AI智能体发展对物理世界全面理解的必要训练环境。
大型生成模型的最新突破主要由Transformer和扩散模型等深度学习模型驱动,这些模型本质上是数据驱动的。模拟物理规则的能力是否可以通过训练数据的扩展而涌现,这是一个有争议的问题。Sora展示了生成物理世界高度逼真视频的惊人能力[130],包括运动中的物体和形状可变的物体,如行人、狗和带有咬痕的汉堡。然而,它仍然难以准确模拟重力和流体动力学等物理规则。此外,研究人员还发现,LLM无法充分预测物理世界的状态转变[191],例如水的沸腾。这些观察表明,大型生成模型尽管拥有海量数据集,但在学习世界的因果表示方面仍存在固有局限性。一个有前途的未来方向是探索大型生成模型与物理规则模拟器的集成。这种解决方案可能会降低生成内容的分辨率和质量,但应提高对未见过的反事实场景的泛化能力。此外,拥有显式物理规则还可以提高世界模型的可解释性和透明度。
6.2 丰富社会维度
仅模拟物理元素对于高级世界模型是不够的,因为人类行为和社会互动在许多重要场景中也起着关键作用[46]。例如,城市居民的行为对于构建城市环境的世界模型尤为重要[8,204]。先前的工作表明,LLM的类人常识推理能力为使用生成式智能体模拟逼真的人类行为提供了独特机会[132]。然而,设计能够模拟逼真和全面的人类行为和社会互动的自主智能体仍然是一个开放性问题。最近的研究表明,人类行为模式和认知过程的理论可以为智能体工作流程的设计提供信息,进而增强LLM的人类行为模拟能力[163,132],这代表了未来研究的一个重要方向。此外,生成的人类行为的现实性评估仍然在很大程度上依赖于人类的主观评估,这对于扩展到大规模世界模型具有挑战性。开发可靠且可扩展的评估方案将是另一个未来研究方向,可丰富世界模型的社会维度。
6.3 通过具身智能弥合模拟与现实的差距
世界模型长期以来被视为发展具身智能的关键步骤[155]。它可以作为强大的模拟器,创建环境的综合元素并对它们之间的现实关系进行建模。这样的环境可以促进具身智能体通过与模拟环境的交互进行学习,减少对监督数据的需求。为实现这一目标,提高生成式AI模型的多模态、多任务和3D能力已成为开发适用于具身智能体的通用世界模型的重要研究课题。此外,缩小模拟与现实之间的差距[67]一直是具身环境模拟器的长期研究问题,因此将训练后的具身智能从模拟环境迁移到物理世界至关重要。收集更细粒度的感官数据也是实现这一目标的关键步骤,这可以通过具身智能体的接口来推动。因此,一个有趣的未来研究方向是创建自我强化循环,以利用生成式世界模型和具身智能体的协同力量。
6.4 模拟效率
确保世界模型的高模拟效率对许多应用至关重要。例如,每秒帧数是学习复杂无人机操作AI的高质量关键指标。大多数大型生成式AI流行的Transformer架构对高速模拟构成巨大挑战,因为其自回归特性一次只能生成一个标记。已提出几种策略来加速大型生成模型的推理,例如结合大型和小型生成模型[162]和蒸馏大型模型[163]。更全面的解决方案包括构建优化调度LLM请求的模拟平台[210]。当经典物理模拟器被要求模拟大型复杂系统时,高计算成本也是一个问题。先前研究发现,图神经网络等深度学习模型可用于高效近似物理系统[154]。因此,一个重要的研究方向将是探索小型深度学习模型与大型生成式AI模型之间的协同作用。此外,从底层硬件到编程平台和AI模型的整体改进也需要实现实质性的加速。
6.5 伦理和安全问题
数据隐私:使用大型生成式AI构建世界模型的最新趋势引发了对隐私风险的重大担忧,主要由于海量且通常不透明的训练数据[219]。大量研究工作致力于评估使用LLM等大型生成式AI推断私人信息的风险[102],这在视频生成模型的背景下可能尤其敏感。为了符合GDPR[176]等隐私法规,提高生成式AI生命周期的透明度至关重要,帮助公众了解数据在这些AI模型中是如何收集、存储和使用的。
模拟不安全场景:生成式AI的强大智能使其访问安全成为首要任务。先前对LLM的研究发现,它们可能被对抗性提示误导生成不安全内容[94,76]。世界模型的不安全使用风险可能更大。对抗性用户可能利用此类技术模拟有害场景,降低策划非法和不道德活动的成本。因此,未来的一个重要研究方向是保障世界模型的使用安全。
责任归属:生成超现实文本、图像和视频的能力已导致传播错误信息和虚假信息的严重社会问题。例如,深度伪造技术的出现引发了大规模滥用,对社会、经济和政治系统产生了广泛的负面影响[193]。因此,检测AI生成内容已成为解决这些风险的关键研究问题[146]。然而,由于生成式AI的进步,这个问题变得越来越具有挑战性,而能够生成一致的多维输出的世界模型的出现将使问题更加困难。水印等技术可以帮助提高世界模型使用的责任归属[27]。需要更多的研究关注以及法律解决方案来改善世界模型使用的责任归属。
7.结论
理解世界和预测未来一直是开发人工生成智能的科学家的长期目标,突显了在各个领域构建世界模型的重要性。本文首次对世界模型进行了全面综述,系统地探讨了其两个主要功能:外部世界的隐式表示和未来预测。我们对这些核心功能的现有研究进行了广泛总结,特别关注决策中的世界模型、模型学习的世界知识、作为视频生成的世界模型以及作为具身环境的世界模型。此外,我们回顾了世界模型在关键应用领域的进展,包括自动驾驶、机器人技术和社会模拟。最后,认识到这个快速发展领域中未解决的挑战,我们强调了开放性问题并提出了有前途的研究方向,希望激发这个新兴领域的进一步研究。
参考资料
- 标题:Understanding World or Predicting Future? A Comprehensive Survey of World Models
- 作者:Jingtao Ding, Yunke Zhang, Yuan Yuan, 等
- 单位:Tsinghua University, Beijing, China
- 标签:人工智能、世界模型、大语言模型、视频生成、自动驾驶、机器人技术
- 概述:本文系统综述了世界模型的核心技术,围绕“理解世界”和“预测未来”两大功能,梳理了其在自动驾驶、机器人、社会模拟等领域的应用及挑战,并展望了未来研究方向。
- 链接:https://arxiv.org/pdf/2411.14499
本文转载自旺知识,作者:旺知识
