从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式

发布于 2025-9-23 06:58
浏览
0收藏

具身基础模型(Embodied Foundation Models, EFMs)是机器人领域的核心驱动力,它们的目标是像大型语言模型(LLMs)之于自然语言一样,成为机器人感知、推理与行动的通用底座。

早期的机器人学习多依赖单任务模仿学习——让机器人在特定场景中重复人类演示的动作。然而,这种方法的局限显而易见:一旦任务或环境发生变化,模型往往需要从零开始训练。

随着多模态感知与大规模数据集的兴起,EFMs 开始向多任务、多模态预训练演进。它们不仅能处理视觉、语言、动作等多种输入,还能在不同任务间迁移知识。

这一趋势与 LLM 的发展路径高度相似:先通过海量数据进行预训练,再通过后训练(post-training)适配特定任务。

在 LLM 领域,监督微调(SFT)+ 人类反馈强化学习(RLHF)的两阶段范式已被证明能显著提升模型的实用性与安全性。然而,机器人领域的EFMs 仍大多停留在 SFT 阶段,缺乏类似 RLHF 的后训练强化环节。

这背后有三个核心瓶颈:

  • 缺乏后训练强化环节:机器人模型在模仿学习后往往直接部署,错失了通过交互进一步优化的机会。
  • 奖励函数设计困难:现实世界的任务目标复杂多变,人工设计奖励函数既费时又容易引入偏差。
  • 真实环境奖励测量成本高:在物理世界中评估任务完成度需要传感器、人工标注或复杂的检测系统,成本与延迟都很高。

正是在这样的背景下,谷歌DeepMind最近提出了一个大胆的设想:借鉴 LLM 的两阶段后训练模式,让机器人具备自我改进(Self-Improvement)的能力。通过一种无需人工奖励工程的机制,机器人可以在真实环境中自主收集数据、评估表现,并不断优化策略。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

值得一提的是,这项工作由Google DeepMind 与 Generalist AI 的顶尖团队联合完成,技术阵容包括 Seyed Kamyar Seyed Ghasemipour、Ayzaan Wahid、Jonathan Tompson、Pannag Sanketi 和 Igor Mordatch——他们在机器人基础模型、多模态学习、强化学习和大规模平台建设方面都有深厚积累。这不仅是技术上的一次突破,也被视为 Google DeepMind 在年度机器人研究中的重磅之作。

1.方法框架总览

这项研究的核心是一个两阶段后训练流程,旨在将 EFMs 从“会模仿”提升到“会自我优化”。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图1:技术团队提出的两阶段微调方法概述。

第一阶段是监督微调(Supervised Fine-Tuning, SFT)。在这一阶段,模型基于人类演示数据进行训练,不仅学习在给定观测和目标下输出正确动作,还同时预测一个名为Steps-to-Go 的量——即完成任务还需要多少步。这一额外预测任务为后续的自我改进提供了关键信号。

第二阶段是自我改进(Self-Improvement),本质上是一次在线强化学习过程。不同于传统 RL 依赖人工设计的奖励函数,这里直接利用模型在 SFT 阶段学到的 Steps-to-Go 预测来构造奖励:如果执行某个动作后,预测的剩余步数减少了,就给正奖励;反之则给负奖励。同时,Steps-to-Go 也充当了成功检测器——当预测步数低于某个阈值时,任务被判定为完成。

这种设计的妙处在于,它完全绕过了人工奖励工程的难题,让机器人能够在真实环境中自动生成可用的奖励信号,并且可以扩展到多台机器人并行执行。换句话说,这是一种可扩展的自我改进机制:模型先通过模仿学习掌握基本技能,再通过与环境的交互不断打磨策略,最终实现性能与泛化能力的双提升。

2.阶段一:监督微调(SFT)——为自我改进打下地基

在这套“自我升级”的两阶段流程中,监督微调(Supervised Fine-Tuning, SFT)是整个体系的地基。它的任务不仅是让模型学会“照葫芦画瓢”,更是为后续的自我改进阶段埋下关键的信号源。

研究团队首先准备了一个模仿学习数据集DD,其中包含了大量人类或高性能策略在不同任务中的演示轨迹。每条数据都由一系列时间步组成,每个时间步包含观测 oto_t(例如摄像头画面、传感器读数)、目标 gg(可能是语言描述、目标位置或任务指令),以及对应的动作ata_t(机械臂关节角度、末端执行器控制信号等)。

与传统的行为克隆不同,这里模型的输出不仅包括动作at,还要额外预测一个量——Steps-to-Go。这个预测值代表模型认为从当前状态到达目标还需要多少步操作。换句话说,模型在执行动作的同时,还在心里默默数着“离终点还有几步”。

训练目标因此变成了“双线并行”:

  • 行为克隆(BC)部分,依然是经典的最大化条件概率 P(at∣ot,g),确保模型在给定观测和目标时能输出与演示一致的动作。
  • Steps-to-Go 预测部分,则是一个回归任务,要求模型尽可能准确地估计剩余步数。这一预测并不会直接影响动作输出,但它将在第二阶段的奖励构造中发挥决定性作用。

这种设计的巧妙之处在于,Steps-to-Go 预测天然具备两种能力: 一是提供密集奖励信号。在真实环境中,奖励往往是稀疏的——只有任务完成时才有明确反馈。而 Steps-to-Go 的变化可以在每一步都给出“离目标更近了还是更远了”的即时评价。 二是充当成功检测器。当预测的剩余步数低于某个阈值时,就可以判定任务已经完成,无需额外的人工标注或复杂的传感器判断。

因此,SFT 阶段不仅让模型学会了模仿,还赋予了它一种“自我感知进度”的能力。这种能力将在下一阶段被转化为自我改进的驱动力,让机器人在没有人工奖励工程的情况下,也能在真实世界中不断打磨自己的技能。

3.阶段二:自我改进(Self-Improvement)——让机器人学会“打磨自己”

如果说监督微调(SFT)是为机器人打下了“会做事”的基础,那么自我改进阶段就是赋予它“会反思、会进步”的能力。这一步的核心,是让机器人在没有人工奖励工程的情况下,依靠自身的预测信号去评估和优化行为。

研究团队的关键突破在于奖励构造机制。他们没有为每个任务手工设计复杂的奖励函数,而是直接利用 SFT 阶段学到的 Steps-to-Go 预测来生成奖励。公式非常简洁:

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

这里 d(o,g) 表示模型预测的“剩余步数”。如果执行某个动作后,预测的剩余步数减少了,说明离目标更近了,奖励为正;反之则为负。这种奖励塑形方式天然与任务进度挂钩,不需要额外的人工干预。

与此同时,Steps-to-Go 还承担了成功检测的角色。当预测的剩余步数低于某个阈值 s 时,系统就判定任务完成。这意味着机器人可以在没有外部传感器或人工标注的情况下,自主判断自己是否成功完成了任务。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图2:Aloha单次插入任务的示例轨迹和表示模型预测(即d(o,g))下E[要走的步数]的图。关键时刻:1)模型认为事件即将成功完成,2)政策意外地放弃了挂钩,d(o,g)增加,3)政策从不适合插入的坏角度重新调整挂钩,因此d(o、g)保持高位,4)政策放弃挂钩,提供了正确重新调整挂钩的机会,从而减少了d(o,g),5)政策将挂钩向内推,d(o、g)标志着政策即将成功,6)右手将插座从左手的握把中敲出,这增加了d(0、g)。

在强化学习算法的选择上,团队刻意追求稳定性而非极限性能。他们采用了On-policy REINFORCE方法,不引入值函数,也不做数据重用。虽然这种策略在样本效率上不如一些离策略方法,但它的梯度估计更稳定,尤其适合在真实机器人上进行在线训练,避免策略震荡带来的风险。

更令人印象深刻的是,这套自我改进机制可以多机器人并行运行。在实验中,单个操作者就能同时监控多台机器人,它们各自执行任务、采集数据、更新策略。整个过程几乎不需要人工干预,形成了一个可扩展的、自我驱动的学习闭环。

4.理论分析与直觉

这套自我改进机制的理论基础,核心在于一种巧妙的奖励塑形(Reward Shaping)。传统的强化学习中,如果奖励信号稀疏,策略往往会在探索中迷失方向。

而这里的奖励直接来源于 Steps-to-Go 的变化——它天然地引导策略向着任务完成的方向前进,同时又不会让机器人偏离在监督微调(BC)阶段已经掌握的“安全区”。换句话说,策略被温和地“牵引”在 BC 擅长的状态空间附近,既能探索新路径,又不至于走向灾难性失败。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图3:上图展示了模型在第一阶段从逐步预测目标中学习到的复杂细节水平。每个图都捕捉到了Aloha Single Insertion任务推出中的一个有趣时刻。每个都由5个连续的帧组成,在每个帧的下方,我们可视化了模型对成功前步骤的预测概率分布。x轴表示要执行的步骤数,y轴表示概率质量。在第一帧中,策略即将成功插入挂钩并完成任务,因此模型预测策略很可能很快就会成功。

在下一个框架中,该政策过早地放开了挂钩,挂钩即将下降。因此,考虑到从快速恢复到较长恢复时间的可能性范围,预测的步骤急剧扩大为多峰分布。随着政策在第四和第五帧中的复苏,模型的预测范围缩小到单峰分布,在短期内成功的可能性很高。底部在前两个框架中,策略有望成功完成任务,因此模型预测策略很可能很快就会成功。

在第三帧中,插座开始从左夹具中滑出。尽管这种滑动在左腕相机上几乎不可见,在任何其他相机视图中都不可见,但该模型立即捕捉到了这一事件,并且其预测在多种模式下显著扩大。具体来说,该模型将一些概率质量放在立即保存上,并将剩余的概率质量分布在一系列可能的恢复时间内。在第四和第五帧中,插槽完全滑出夹具,因此该模型消除了即时保存结果的概率质量。

另一个关键优势是低方差基线。在 REINFORCE 这样的策略梯度方法中,梯度估计的方差往往是稳定性的最大敌人。Steps-to-Go预测在这里不仅是奖励的来源,还能作为一种天然的基线,显著降低梯度估计的波动,让训练过程更加平滑可控。

这对于真实机器人尤为重要,因为策略不稳定意味着机械臂可能会做出不可预测甚至危险的动作。

更有意思的是,这种方法具备很强的状态敏感性。由于 Steps-to-Go 是直接从视觉和任务目标中预测出来的,它能够捕捉到那些人类肉眼也许会忽略的细微变化——比如物体在抓取过程中轻微滑落、推块的角度偏差、插销任务中姿态的微小错位。这种敏感性让奖励信号更精准,也让策略优化更高效。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图4:点群导航域。来自模仿学习数据集的样本轨迹,以及BC(第一阶段)和自我改进(第二阶段)策略。

5.实验设计

为了验证方法的有效性,研究团队在多个平台和任务上进行了系统评估。

LanguageTable 是一个单臂推块任务平台,机器人需要根据语言指令将彩色方块推到指定位置。这类任务考验的是视觉理解、语言解析与低层控制的协同能力。

Aloha 则是一个双臂插销任务平台,涉及精细的双手协调与高精度操作,难度显著高于单臂任务。

BananaTable 是一个泛化测试场景,引入了模型在训练中从未见过的物体——香蕉。机器人不仅要完成推送任务,还要学会应对香蕉这种容易滚动、旋转的特殊形状。这是对模型跨物体泛化能力的直接考验。

在数据规模上,团队设置了多种比例的模仿数据(10%、20%、80%),并在此基础上对比了单纯的 BC 与 BC+Self-Improvement 的表现差异。同时,他们还测试了不同的预训练初始化方式,包括多模态预训练的 PaLI、单模态的 Uni-PaLI,以及完全随机初始化(Scratch),以评估预训练对自我改进效果的影响。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图5:第二阶段自我提升结果。

Orange:第一阶段行为克隆策略(相当于RT2基线(Brohan等人,2023))。蓝色:第二阶段在线自我提升后的政策,只需要少量的额外剧集。模拟和真实LanguageTable以及Aloha域的结果表明,我们提出的两阶段后训练方法比单独的监督学习具有更高的成功率和样本效率。

我们的Real2Sim LanguageTable,特别是BananaTable的结果表明,我们将在线自我提升和网络规模的预培训相结合,使政策能够快速获得远远超出第一阶段模仿学习数据集的新技能。随机种子之间的差异很小,突显了我们方法的稳健性。以上值是3颗种子的平均值。虽然第一阶段LanguageTable数据集包含不同的任务,但为了公平起见,上述LanguageTable图中的x计算了Block2Block发作的次数(占完整模仿学习数据集中Block2Block总发作次数的百分比)。

评估维度涵盖了四个方面:

  • 性能提升:在相同数据量下,BC+Self-Improvement 是否优于单纯 BC。
  • 样本效率:在有限的额外在线数据下,性能提升的幅度有多大。
  • 真实机器人可行性:方法在物理环境中是否稳定、安全且可扩展。
  • 泛化能力:不仅包括跨域(如 Real2Sim 迁移),还包括对全新技能和新物体的适应能力。

这样的实验设计既覆盖了从模拟到真实的全链路验证,又在任务类型、数据规模和初始化条件上做了充分的对照,确保结论具有说服力和推广性。

6.实验结果与分析

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图6:语言表环境。左图:用于我们现实世界实验的四个LanguageTable机器人站。右,现实世界LanguageTable机器人站的顶部摄像头视图。右,模拟LanguageTable机器人站的底部摄像头视图。

从实验数据来看,这套“自我升级”机制的表现可以用一句话概括——少量在线强化学习数据,就能换来成倍的性能提升。在 LanguageTable 这样的单臂推块任务中,研究团队只额外采集了不到 2% 的在线 RL 数据,成功率就从 45% 飙升到75%,而如果单纯增加 8 倍的模仿数据,成功率也只能提升到60% 左右。

这种效率差异在真实机器人上同样成立:仅用 20% 的模仿数据,加上 3% 的自我改进数据,就能达到接近 88% 的成功率,甚至超过了用 80% 模仿数据训练的基线模型。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图7:模拟Aloha单次插入任务中的四个摄像头视图。

这种趋势在更复杂的 Aloha 双臂插销任务中依然明显。5K 条模仿数据加上 2.5K 条自我改进数据,性能就超过了单纯 10K 条模仿数据的模型,并接近 15K 条模仿数据的水平。这意味着,自我改进不仅能节省数据采集成本,还能在相同数据预算下获得更高的性能上限。

从模仿到自我进化,谷歌DeepMind发布下一代机器人基础模型的训练新范式-AI.x社区

图8:左消融结果表明,基础模型的网络规模预训练对于实现有效的第2阶段训练至关重要,特别是在小数据集规模的情况下。正确的“成功率”

在LanguageTable Real2Sim域转移任务的第二阶段自我改进期间绘制。与Uni-PaLI模型相比,PaLI模型的奖励标签显著加快了自我提升。

预训练的重要性在消融实验中被凸显得淋漓尽致。多模态预训练的 PaLI 初始化在低数据量下的表现显著优于单模态的 Uni-PaLI,更是远远甩开了随机初始化(Scratch)。这说明,预训练不仅是加速收敛的“助推器”,更是让自我改进阶段有的放矢的“导航仪”。

泛化能力的测试同样令人印象深刻。在 Real2Sim 迁移实验中,研究团队先在真实机器人上训练,再将模型迁移到模拟环境进行自我改进,仅用 3% 的额外数据,成功率就从 22% 提升到 59%。在 BananaTable 任务中,机器人面对从未见过的香蕉物体,最初的推送策略很容易让香蕉滚动或旋转,但经过 8 小时的自我改进,成功率从 63% 提升到 85%,并且学会了新的推法——先调整角度防止旋转,再稳步推进。

可视化分析揭示了这些性能提升背后的行为变化。自我改进后的机器人在动作上更加稳健,能够主动修正偏差,甚至在物体出现轻微滑落时及时调整抓取姿态。这种细腻的状态感知和策略调整,正是 Steps-to-Go 奖励机制带来的直接收益。

7.创新点总结

这项技术的最大亮点之一,是彻底摆脱了人工奖励工程。通过在 SFT 阶段引入 Steps-to-Go 预测,研究团队让机器人在自我改进阶段可以直接利用自身的进度感来生成奖励和成功信号,省去了繁琐的任务特定奖励设计。

其次是高样本效率。相比单纯扩充模仿数据,自我改进能用极少的在线数据换来更大的性能提升,这对于真实机器人训练尤其重要,因为现实世界的数据采集成本远高于模拟环境。

第三个亮点是泛化能力。无论是跨域迁移(Real2Sim),还是面对全新物体与技能,机器人都能在短时间内适应并优化策略。这种能力意味着模型不仅能“学会”,还能“学会学习”。

最后,这套方法具备可扩展的多机器人自我改进特性。单个操作者可以同时管理多台机器人,它们各自采集数据、更新策略,形成一个分布式的、自我驱动的学习网络。这为未来大规模机器人群体的自主进化提供了可行路径。(END)

参考资料:​​​https://arxiv.org/abs/2509.15155​

本文转载自​波动智能​,作者:FlerkenS

已于2025-9-23 06:58:03修改
收藏
回复
举报
回复
相关推荐