
《自然》发表强化学习的大杀器!DreamerV3剑指AGI终极目标 精华
如何开发一个通用算法,使其能够在不同任务领域中不依赖大量人工调参,甚至无需人类先验数据即可实现“开箱即用”的效果?这种通用性的重要性不言而喻。它不仅意味着AI能够更广泛地适应真实世界的复杂场景,还将显著降低应用AI技术的门槛,让开发者得以聚焦于更高层次的创新。
在这一背景下,“世界模型”(World Models)成为了重要突破口。通过学习环境的紧凑表示并预测未来情景,世界模型为AI提供了一种类似人类“想象力”的能力,让算法能够在“脑海中”进行推演,而无需过度依赖真实交互数据。这一特性不仅提升了效率,还为强化学习的规划与推理开辟了新路径。
基于此,第三代 Dreamer 算法横空出世。自然(Nature)近期发表Google DeepMind 最新研究成果《通过世界模型掌握各种控制任务》(Mastering diverse control tasks through world models),研究团队提出了一个真正意义上的通用RL算法:它能够以固定的超参数配置处理超过 150 项多样化的控制任务,从经典的Atari游戏到模拟机器人任务,再到极具挑战的Minecraft钻石获取,Dreamer一次性解决了这些高度异构的问题,创造了人工智能领域的里程碑。
尤其值得一提的是,Dreamer在Minecraft中达成了一个被广泛认为极为困难的挑战——从无到有地获取钻石。相比其他方法依赖人类专家数据或手工设计的课程指导,Dreamer完全依靠自身,从稀疏的奖励信号中推断出复杂策略。这不仅是技术的突破,更是人工智能在通用性和自主性方面的一次飞跃。
这项研究由Google DeepMind与多伦多大学的科学家联合完成。Google DeepMind作为AI领域的领军者,一直以解决“科学中的大问题”为使命,而多伦多大学更是在机器学习研究领域享有盛誉。来自这两大机构的精英们共同打造了Dreamer的“基因”,他们深厚的技术积累与卓越的跨领域合作能力无疑为研究的成功奠定了基础。
1.Dreamer 算法概述
算法发展历程
Dreamer 算法并非从一开始就具备如今的强大能力,它的发展历程可以说是步步攀登,从最初的连续控制专精到如今通用性极强的第三代版本。DreamerV1 是这一系列的开端,它主要专注于连续控制任务,通过构建世界模型为强化学习算法赋予了一定的环境理解能力。但是它的局限性显而易见——应用领域较窄,只能处理特定类型的任务。
图1 |Dreamer的训练过程。世界模型使用编码器(enc)将感官输入xt编码为离散表示zt,这些离散表示由具有给定动作的循环状态ht的序列模型预测。输入被重建为x̂t使用解码器(dec)来塑造表示。行动者和评论家预测vt处的行为并重视vt,并从抽象表示ẑ的轨迹中学习t,并对世界模型预测的rt进行奖励。
DreamerV2 向前迈进了一大步,实现了在 Atari 游戏等离散任务中的人类级别表现。其技术核心在于将世界模型扩展到像素输入的场景,同时优化了模型的数据效率。然而它仍然局限于相对有限的任务范围,未能完全跨越领域边界。
直到 DreamerV3 的问世,这一系列算法终于突破了障碍,成为真正意义上的通用算法。它能够在超过 150 个多样化任务中表现优异,涵盖了连续和离散动作、低维度和高维度视觉输入、稀疏和密集奖励等,标志着从单一领域专精到广泛通用的跃迁。
核心思想:世界模型
Dreamer 的成功离不开其核心思想——世界模型。这一技术的精妙之处在于,它为强化学习算法提供了类似人类“想象力”的能力,让算法能够对环境进行推演,从而优化行动策略。
图2|实验中使用的不同视觉领域。Dreamer在这些领域取得了成功,从Atari游戏中的机器人运动和操纵任务,程序生成的ProcGen关卡,以及需要空间和时间推理的DMLab任务,到Minecraft的复杂和无限世界。我们还对Dreamer进行了非视觉领域的评估。
首先,世界模型通过自编码器(Autoencoder)提取环境的感官输入x t的紧凑表示z t。接着,序列模型以循环状态h t 的形式预测表示序列,该循环状态由过去的动作at t −1和当前时间步 t的随机表示组成。公式表示如下:
世界模型结合了随机表示z t和循环状态 h t 构建了模型状态 st ,并用于预测奖励rt和回合继续标志 ct ,同时重建输入以确保表示的有效性。
通过预测未来情景,世界模型使 Dreamer 的强化学习代理能够在脑海中模拟潜在行动的效果,而无需过度依赖真实环境交互数据。
主要组件
Dreamer 算法的架构由三个主要组件构成,各司其职,共同实现高效学习:
- 世界模型: 世界模型是整个算法的基石,它不仅负责感知环境,还通过预测潜在动作的结果为规划提供支持。其架构包括编码器、序列模型,以及用于重建输入和预测奖励的模块。通过归一化、平衡和变换技术,世界模型能够在多任务、多领域中实现稳健学习。
- 行为者(Actor): 行为者负责选择行动策略,以最大化预期回报。它通过探索正则化(熵正则化)的方式在探索与利用间找到平衡。
- 评论者(Critic): 评论者基于世界模型生成的想象轨迹,对每个状态的回报分布进行估计。它通过两热编码方法对奖励和价值预测进行鲁棒化处理,支持从稀疏奖励信号中提取重要信息。
这三大组件相辅相成,共同确保 Dreamer 的性能不仅在单一领域表现优异,更能扩展到不同任务场景。
2.方法论与技术细节
Dreamer 算法的突破性核心在于其世界模型的巧妙设计以及为强化学习奠定的鲁棒性方法。
图3 |世界模型的视频预测。展示了一个程序迷宫和一个四足机器人。给定5个上下文图像和一个看不见的视频的完整动作序列,Dreamer在没有中间图像的情况下预测未来45帧。通过像素观测,世界模型可以了解每个环境的底层结构。
世界模型的建立
Dreamer 的世界模型是实现高效学习的基石,通过将感官输入映射为紧凑的表示,并预测潜在行为的未来结果,赋予了算法“想象力”。
输入映射与随机表示(z t)的学习
Dreamer 使用编码器(encoder)将输入x t转化为随机表示z t,捕捉了环境在每一时刻的特征。
循环状态($$h_t$$)的构建及与随机表示的结合
为了捕捉时间序列信息,Dreamer 引入了循环状态h t ,结合随机表示z t形成模型状态 st,用于预测环境动态,通过这一构建,Dreamer 能够从历史信息中提取规律,并预测未来可能的环境状态。
预测奖励、继续信号及重建输入的综合损失设计
Dreamer 的世界模型不仅预测奖励rt,还判断回合是否继续(继续信号 c t ,并重建原始输入x t。
鲁棒预测与回报归一化
在稀疏奖励场景下,Dreamer 通过 symlog 和symexp 技术稳定优化过程。结合回报归一化(采用百分位范围裁剪策略),该方法确保了不同任务的信号尺度兼容性,从而实现跨领域的稳定学习。
消融实验分析
为了验证各项技术的贡献,研究团队进行了全面的消融实验。结果表明:
- 每项鲁棒性技术对任务性能均有显著影响,其中 KL 平衡和自由位贡献最大;
- 消除无监督重建信号的学习会显著降低性能,验证了任务无关梯度的重要性。
这些实验不仅揭示了技术协同作用的重要性,也为未来算法优化指明了方向。
优化器与经验回放
Dreamer 的优化过程基于自适应梯度剪裁和 LaProp 优化器,实现了梯度稳定性与高效学习的平衡:
- 自适应梯度剪裁:当梯度超过 L2 范数的 30% 时进行裁剪,避免了异常值对学习的干扰。
- LaProp 优化器:相较于 Adam,LaProp 提供了更平滑的动量更新,避免了学习过程中的不稳定现象。
在数据利用方面,Dreamer 使用均匀回放缓冲区结合在线队列进行经验回放,通过回放比率控制每个时间步的训练频率,从而优化了数据效率。
模型扩展性
Dreamer 的设计使其能够通过简单的调整扩展至更大规模的模型。实验显示,参数数量从 1200 万扩展到 4 亿后,Dreamer在任务性能和数据效率上均实现了显著提升。此外,固定超参数设置下的跨尺度表现也验证了其在资源配置上的灵活性与鲁棒性。
3.基准测试与综合评估
Dreamer 算法的卓越表现并非凭空而来,它经历了严苛的基准测试,涵盖多个领域的丰富任务。这些测试不仅验证了算法的鲁棒性,还展现了其跨领域学习能力。
图4|基准分数。Dreamer在所有领域使用固定超参数,在各种基准测试和数据预算中都优于经过调优的专家算法。Dreamer的性能也大大优于广泛适用的PPO算法的高质量实现。IMPALA和R2D2+在DMLab上使用的数据量是前者的十倍。
各领域实验设计
Dreamer 的实验设置横跨多个基准领域,囊括了强化学习的经典挑战与前沿应用。这些任务包括:
- Atari 游戏:57 项任务测试算法在离散动作与视觉输入下的表现,例如《太空侵略者》(Space Invaders)等经典游戏。
- ProcGen 游戏集:16 款游戏引入了随机化关卡与视觉干扰,旨在评估算法的泛化能力。
- DMLab 环境:30 项三维任务挑战空间与时间推理能力,包括在迷宫中寻找路径。
- Atari100k:仅有 400,000 帧的数据预算,使其成为强化学习领域的效率测试基准。
- 控制任务:包括 Proprio 控制(机器人运动)与 Visual 控制(基于图像的高维控制),涵盖从经典动力学到机器人操作的范围。
- BSuite:23 个环境的总计 468 项配置,通过奖励尺度、记忆、探索等测试算法的鲁棒性。
这些任务的设计极具挑战性,覆盖了连续与离散动作、稀疏与密集奖励,以及二维与三维场景,确保了实验的多样性与全面性。
测试协议与固定超参数跨领域训练
Dreamer 采用了固定超参数设置,以验证其在不同任务中的通用性与适应能力。所有实验均遵循标准的测试协议,例如:
- Atari 任务使用“黏性动作”(Sticky Actions)模拟现实中的动作干扰。
- ProcGen 使用难度较高的设置以及无限级别随机化。
- DMLab 的运行预算为 100 万步,但为了与以前采用 10 亿步基线的工作对比,提供了这些算法在更高数据量下的参考表现。
- 控制任务的预算为 1 百万步,分为低维传感输入与高维视觉输入两组。
在环境实例方面,Dreamer 的实验使用了单 GPU 运行,环境实例数因任务需求而异。例如,Atari100k 使用单实例保证数据预算,而 Minecraft 实验则采用了 64 个远程 CPU 实例加速运行。
为了确保结果的可靠性,每项实验运行了多个种子。特别是 Minecraft 实验使用了 10 个种子,统计其成功率,明确了算法的稳定性。
评估指标与对比基线
为了评估 Dreamer 的性能,研究团队选择了多种基线算法进行对比,包括:
- 高质量 PPO:基于 Acme 框架实现,调整了学习率与熵正则化因子以最大化性能。
- IMPALA:一种高效扩展的强化学习算法,适用于复杂三维场景。
- Rainbow 和 IQN:两个针对 Atari 游戏领域优化的专家算法。
- TD-MPC:一种结合经典规划与连续动作的算法,专为视觉任务设计。
通过对比可以发现,Dreamer 不仅匹配甚至超越了专家算法的表现。例如,在 ProcGen 游戏中,它显著优于调优的 PPO 与 Rainbow。在DMLab 环境中,它的数据效率比 IMPALA 高出 10 倍。
此外,在连续控制任务中,Dreamer 的表现超越了 TD-MPC 等专用方法。这些对比清晰地展示了其鲁棒性与广泛适用性。
模型消融实验结果
为了进一步分析 Dreamer 算法的技术贡献,研究团队对其进行了消融实验。这些实验验证了各项技术的协同作用,并揭示了关键性改进:
- 自由位与 KL 平衡:对多个任务的性能提升尤为显著。
- Symlog 与 Symexp:在处理稀疏奖励和大尺度信号方面表现出了稳定性优势。
- 无监督梯度信号的重要性:移除任务无关重建信号的实验结果表明,这一机制对于学习过程至关重要。
实验结果以图形形式展现了各技术对性能的影响,清晰地揭示了 Dreamer 算法的内在机制。
4.Minecraft 钻石挑战案例研究
《我的世界》(Minecraft)不仅是全球最受欢迎的游戏之一,更以其开放性和复杂性成为人工智能研究的重要场景。在这里,玩家面对的不仅仅是像素化的方块世界,还有稀疏奖励、长时序策略和开放式目标的严峻挑战。Dreamer 算法在这一任务中的表现,不仅证明了其技术深度,更展示了人工智能适应多样性任务的潜力。
图5 | Minecraft Diamond挑战赛的表现。a、 据我们所知,Dreamer是第一个完成通往钻石的所有12个里程碑的算法,从没有人类数据或课程的稀疏奖励开始。b、 在钻石任务中发现三个最新项目的训练有素的代理人的比例,以及他们获得该项目的事件比例。尽管之前的算法已经发展到铁镐,但Dreamer是唯一一个发现钻石的比较算法,并且在每次训练中都会这样做。阴影区域表示一个标准偏差。
环境构建与任务定义
Minecraft 的世界充满了复杂的元素与无数的可能性。为了让这一环境适用于强化学习,研究团队基于 MineRL v0.4.4 构建了“Minecraft 钻石环境”。该环境以一系列需要收集资源、制作工具的步骤为基础,其终极目标是获取钻石,一种极其稀有且难以获取的资源。
- MineRL 竞赛环境的特点MineRL 提供了抽象的制作(Crafting)动作,并允许代理通过视觉感知和低级控制与环境交互。然而,这一环境也存在多项限制:
a.稀疏奖励:仅在收集特定物品(如木材、石块或铁块)时提供奖励,并且一次回合内只能获得一次相同物品奖励。
b.复杂的技术树:代理需要遵循一系列递进步骤(如制作工具、采集资源),最终才能获得钻石。
- 定制修改研究团队对环境进行了一系列改进以提高学习效率:
a.动作空间优化:将复杂的字典动作转化为简单的25 类动作,这些动作覆盖了移动、跳跃、开采和制作等核心功能。
b.奖励设计:为每个里程碑(如成功获取木板、铁镐等)分配统一的奖励(+1),让回报更加直观。
c.块破坏速度加速:破坏一块方块默认需要几百个时间步,研究团队通过加速破坏时间,降低了动作序列探索的难度,同时保留了 Minecraft 核心的挑战性。
钻石作为长期稀疏奖励任务的挑战性
在这个任务中,钻石的获取被视为 AI 的“终极考验”,因为它需要代理完成长时序的规划与探索:
- 探索复杂性:钻石仅存在于深地下的矿脉中,代理需要经历从地表到地底的漫长路径,并找到正确的开采区域。
- 稀疏奖励信号:代理需要通过 12 个里程碑的逐步解锁获得奖励,而每个里程碑的完成都依赖于之前目标的成功完成。
- 长时序依赖:在整个学习过程中,代理需要记住哪些资源已被收集、哪些工具已被制作,还要确保自己的存活状态(如避免饥饿或生命值归零)。
这些特点让 Minecraft 成为了强化学习领域中难度最高的任务之一。
Dreamer 在 Minecraft 中的表现
Dreamer 算法的最大亮点在于其“开箱即用”的能力。无需依赖人类先验数据,也无需专门为任务设计的课程指导,Dreamer 展现出了非凡的适应性。
- 开箱即用的成功表现在 Minecraft 环境中,Dreamer 完全依靠自己的世界模型和无监督目标,成功从头开始学习并实现钻石获取。这一成就标志着 Dreamer 成为第一个在 Minecraft 钻石挑战中完成目标的算法。
- 多轮实验与成功率统计研究团队运行了多轮实验,每轮模拟约 1 亿环境步,相当于 100 天的游戏时间。结果显示,Dreamer 能在所有实验中成功解锁钻石奖励,其成功率显著高于其他算法(如 Rainbow、IMPALA 等)。
- 横向对比
a.Dreamer 无需人类数据支持,而许多基线算法(如 VPT)依赖于大规模专家演示。
b.算法的计算资源需求也更低:Dreamer 使用 1 张 GPU 即可完成训练,而同类算法需要数百 GPU 才能接近类似的表现。
技术难点与解决策略
Dreamer 在解决 Minecraft 钻石挑战的过程中,克服了多项技术难点,其方法在多个方面具有启示意义:
- 稀疏奖励与长时序依赖
a.Dreamer 的世界模型通过预测环境动态,帮助代理从稀疏奖励信号中提取有用的信息。
b.代理能够“想象”未来可能的情景,从而有效规划一系列复杂步骤来完成目标。
- 无监督目标与跨任务迁移
a.Dreamer 强调无监督学习目标的重要性,世界模型的重建信号与任务独立,使得算法能够快速适应不同任务。
b.这一策略也为 AI 的跨任务迁移能力奠定了技术基础,表明强化学习不再局限于单一领域的专用优化。
5.讨论与未来研究方向
值得注意的是,较大的模型不仅可以提高任务性能,而且需要更少的环境交互。d、 更高的重播率可以提高Dreamer的性能。再加上模型大小,这使得从业者能够通过使用更多的计算资源来提高任务性能和数据效率。
图6|Dreamer的烧蚀和稳健扩展。a、 平均而言,所有单独的鲁棒性技术都有助于Dreamer的性能,尽管每种单独的技术可能只影响一些任务。个别任务的训练曲线包含在补充信息中。advnorm,优势规范化。b、Dreamer的性能主要取决于其世界模型的无监督重建损失,这与大多数主要依赖奖励和价值预测梯度的先前算法不同7,9,10。c、 Dreamer的性能随着模型尺寸的增大而单调增加,参数从1200万到4亿不等。
值得注意的是,较大的模型不仅可以提高任务性能,而且需要更少的环境交互。d、 更高的重播率可以提高Dreamer的性能。再加上模型大小,这使得从业者能够通过使用更多的计算资源来提高任务性能和数据效率。
DreamerV3 的出现,标志着强化学习领域的一次里程碑式的突破。它不仅在技术上解决了固定超参数跨领域学习的难题,更以惊人的效率和适应性刷新了我们对强化学习的认知。在超过 150 项多样化任务中,Dreamer 展现了强大的能力,涵盖离散与连续动作、低维与高维输入、稀疏与密集奖励等。这一算法以统一的技术解决多样化问题,摆脱了传统强化学习算法高度依赖人工调参的局限。
在实验成果方面,DreamerV3 在经典基准测试(如 Atari 游戏集、DMLab 和 ProcGen 等)以及复杂的开放世界任务(如 Minecraft 钻石挑战)中表现卓越。它的“开箱即用”特性无需人类数据支持或适应性课程设计,彰显了其跨领域的强适应性。这不仅大幅降低了人工智能应用的门槛,也为算法在实际场景中的广泛应用铺平了道路。
此外,Dreamer 优雅地平衡了数据效率与计算资源。尽管固定超参数设置可能听上去局限性较强,但实验结果证明 Dreamer 能够以较少的数据和计算资源实现顶级表现。从高效的数据利用到对硬件预算的合理适配,这一算法为强化学习研究提供了一种新的思路。
对强化学习研究的启示
DreamerV3 的成功并非偶然,它为强化学习领域带来了许多启发,尤其是在以下几个方面:
- 无监督预训练的潜力Dreamer 强调世界模型的无监督学习目标,通过重建信号让模型能够独立构建环境的理解。这表明,未来的算法可以借助无监督预训练学习更广泛的知识基础,为更复杂的任务提供支持。
- 世界模型的广泛适用性Dreamer 的世界模型展现了在复杂环境中的规划能力。这一技术不仅适用于游戏和仿真任务,还能延伸至从互联网视频中学习世界知识、开发通用智能体等领域。比如,AI 能够从无数的线上内容中提取丰富的环境动态,应用于交通规划、医疗诊断甚至科学实验。
Dreamer 算法为强化学习研究提供了一种全新的范式:从任务特定的调优逐步迈向广泛的普适性。
未来工作展望
尽管 DreamerV3 已取得令人瞩目的成绩,但它的未来发展空间仍然广阔。以下是几个关键的研究方向:
- 进一步扩展世界模型的训练规模随着计算资源的不断提升,世界模型可以扩展到更大规模的数据集与参数空间。通过增加模型的复杂度与泛化能力,Dreamer 有望处理更多样化的任务。
- 探索更复杂的环境与任务Minecraft 钻石挑战已经证明 Dreamer 在开放世界任务中的潜力,但还有更多领域等待开发,例如实时动态环境、多人交互任务等。同时,融合语言与视觉的多模态输入将进一步提升算法的适用性与表现。
- 实际应用与商业落地前景Dreamer 的“开箱即用”特性使其在工业场景中有着极大的应用潜力。从自动驾驶到智能客服,从机器人操作到科学研究,其普适性与数据效率使其能够胜任多种实际任务,并且有望促进人工智能商业化的进一步推进。
DreamerV3 的出现不仅刷新了技术的边界,更为人工智能的未来绘制了一幅蓝图。作为一项通用算法,它的成功故事不仅是技术发展的缩影,也是人工智能迈向普遍适用性的象征。在不远的将来,我们或许会看到以世界模型为核心的人工智能,彻底改变我们认知与工作方式的时代。
参考资料:https://www.nature.com/articles/s41586-025-08744-2
本文转载自独角噬元兽,作者:FlerkenS
