
如何获取足够的数据来训练机器人GPT?
一、核心命题
训练“机器人GPT”式通用机器人基础模型的关键瓶颈在于“机器人数据鸿沟”:现有数据集规模远低于数万亿token,且缺乏多样性(跨环境、物体、任务、光照)。要实现2万亿token目标,传统单机采集需数万年,但通过组合现实机器人集群、模拟数据和人类视频数据,可在几年内接近目标。这需数十亿美元级投资,但2025年进展(如NVIDIA的Project GR00T更新和Skild AI的通用机器人脑)显示技术路径日益成熟,凸显合成数据和高保真模拟的作用。
二、量化与假设:从算账出发
基本假设:机器人以10 fps采集,每帧约1个“有价值token”(考虑机器人数据冗余及非IID特性,信息密度远低于文本token),24/7运行下,单机需约6,377年达2×10¹² token。放宽现实因素(如间歇运行、数据过滤),基线取约70,000机器人年。
三个缩放杠杆与粗略倍率(基于乐观估算,结合2025年更新):
1. 机器人集群:如1,000台多任务人形机器人并行(参考Tesla/Figure计划的数千台规模及2025年人形机器人出货激增)。
2. 模拟数据:参考“Sim-and-Real Co-Training”及2025年进展(如NVIDIA Isaac Lab的zero-shot转移框架),等效放大1:100至1:1,000(DrEureka利用LLM加速sim-to-real设计)。
3. 人类视频数据:人类与机器人数据等效比约10:1,2025年工作如EgoVLA(基于500k人类第一人称视频预训练)显示更高效率。
综合:70,000年 ÷ (1,000 × 10 × 10) ≈ 0.7年。考虑数据质量与泛化(如AutoRT收集77k真实episode,强调多样性),实际可能需调整为几年。
三、三类数据源的逻辑角色
1. 现实世界机器人集群:
2025年全球存量巨大(AMR预计数百万台,人形如Figure 02达数千台),但多限于同质环境。价值在于多任务部署(如NVIDIA GR00T的认知基础模型),需通过遥控操作采集失败轨迹。2025年更新:Agility Robotics等强调真实teleop数据对泛化的关键作用。
2. 模拟与现实协同(Sim-to-Real Co-Training):
以少量真实演示扩展大规模模拟(比率1:100+),2025年进展如NVIDIA的Isaac GR00T云到机器人平台及MIT的real-to-sim-to-real(通过手机捕获环境,加速模拟训练)。模拟对强化学习(RL)有效,但需域随机化覆盖现实复杂性;Omniverse平台支持程序化生成。
3. 人类视频数据:
从人类演示蒸馏技能(如Tesla视频、EgoZero的Aria眼镜数据),2025年如Autoregressive Robotic Model(从无标签人类视频学习4D表示)和EgoVLA(第一人称视频桥接人类与机器人动作空间)。对长尾行为关键,效率高,但需匹配机器人形态。
四、“多样性优先”的证据链:模仿学习的规模定律
模型能力与参数、token、计算呈幂律关系,但机器人领域多样性优于数量:多环境覆盖优于单环境海量样本。2025年共识从研究延伸:
Data Scaling Laws in Imitation Learning:多环境演示显著提升泛化能力。
Robot Utility Models (RUM):在≥40环境下实现90%未见环境成功率,环境数量与性能呈幂律关系。
2025年更新:《Foundation Models for Robotics》综述确认多样数据驱动自主性;EgoVLA消融实验显示,机器人demo数据减半导致长任务成功率骤降(45%→7%),凸显人类预训练的重要性。
行业共识:
1. 泛化能力随环境及物体数量呈幂律上升。
2. 单一环境存在边际递减效应。
3. 下限需≥40~100环境(如AutoRT的野外多样数据),并需便捷工具(如Stick/UMI)高效采集。
五、Sim-to-Real 的方法学与边界
域随机化与程序化生成:随机化纹理、布局、物体(基于Objaverse库),如ProcThor生成15万房屋,支持Poliformer(2024 CoRL最佳论文)的导航转移。2025年进展:real-is-sim动态数字孪生缩小差距;AutoMate训练多样几何装配;DrEureka利用LLM自动化奖励与任务生成,扩展覆盖面。
任务自动化:Eureka/Eurekaverse用LLM生成函数,加速模拟学习。
当前局限:
1. 语义迁移薄弱:需真实数据训练检测器(如Detic)。
2. 复杂操作依赖VLM协调、局部策略及规划(如ManipGen)。
3. 现实数据对分布外物体及物理交互不可或缺(2025年调研确认传感器噪声与域移仍为挑战);高保真模拟(如Cosmos WFM)有所缓解,但非万能。
六、关键假设与不确定性(作者自我校准)
Token估算:每帧1 token为保守估计;若单帧可提炼数百有效token(经过去冗余处理),进度将更快。
模态叠加:假设模拟与人类数据互补可能高估效果;若存在重叠,收益降低。
物理难点:夹爪与环境的物理交互需更多真实数据;2025年讨论(如“Reality Gap”帖子)强调边缘案例的挑战。
额外不确定性:强化学习长期训练可能导致遗忘(ProRL论文警告);机器人数据饥饿(仅500k对比LLM的万亿)需合成数据填补,但质量存风险。
七、面向落地的策略建议(数据/系统/组织一体化)
1. 以“多样性为先”的数据路线图:
确保每个技能覆盖≥40~100环境,涵盖多物体与光照;建立家庭与工业环境谱系,优先处理长尾任务。
2. 三源合一的采集体系:
现实集群:部署人形平台(如Figure 02),通过遥控闭环采集难例;整合AutoRT式多机器人野外数据。
模拟平台:构建程序化流水线(如Isaac Lab),版本化场景库;利用DrEureka自动化奖励生成。
人类视频:建立授权流程,聚焦匹配机器人形态的分布(如EgoVLA第一人称视频),结合无标签学习。
3. 数据度量与“有效 token”定义:
将token操作化为信息密度(TD-error、成功标注),通过难度采样与去重提升效率;参考Functional Benchmarks评估真实推理能力,而非记忆。
4. 训练架构:
采用VLM协调与局部策略组合;模拟预训练控制模块,现实数据精调语义模块;动作分块(如50Hz扩散头预测1秒动作)。
5. 计算与预算规划:
按幂律关系协同扩展参数、token与算力(参考DeepMind Compute-Optimal);构建训练-评估-数据回灌闭环;2025年Skild AI强调预训练与后训练配方。
6. 组织与生态:
推动“曼哈顿计划”式联盟(跨公司如NVIDIA/Covariant、政府);统一数据格式与隐私标准(如去中心化平台);降低数据汇集的组织摩擦,聚焦真实数据共享。
八、一句话结论
要在几年内达到2T token级别,需以多样性优先,构建现实集群、程序化模拟与人类视频的三元数据引擎,在组合式学习框架下闭环运行,兼顾工程与组织挑战;2025年进展如GR00T更新、Skild Brain和EgoVLA预示突破在即。
如何获取足够的数据来训练机器人GPT?
一项关于扩展机器人数据收集至2万亿token的思想实验
众所周知,大型语言模型(Large Language Models)依赖海量数据进行训练,规模往往达到数万亿token。然而,即使是目前最大的机器人数据集,也远远达不到这一数量级。Physical Intelligence公司在一年时间里收集了约1万小时的机器人数据,用于训练其首个基础模型PI0。Andra Keay在其Substack博客中提到,这正是所谓的“机器人数据鸿沟(Robot Data Gap)”。
若仅依靠传统方式,可能需要数万甚至数十万年才能收集到足够的数据。但我们可以通过多种方式加速这一过程,包括:
- 扩展机器人集群(Scaling Robot Fleets)
- 使用模拟数据(Simulation Data)
- 使用人类视频数据(Human Video Data)
通过整合这些方法,训练“机器人GPT”的数据收集目标才更具可行性。然而,所需资源已超出学术实验室的能力范围,需要巨额资金投入。
接下来,让我们深入探讨这一问题。
这些估算在某些方面可能过于乐观。我们先做一个简化假设:假设一台机器人以10帧/秒(10 fps)的速度采集数据,每帧生成1个有价值的token。之所以这样设定,是因为机器人token的“信息密度”远低于语言模型token。例如,Qwen或Llama的数据包含丰富语义,而机器人图像帧往往冗余度高。
进一步地,机器学习通常在独立同分布(IID)的数据集上表现最好,而无论是网络数据还是机器人数据,都不具备严格的IID特性,其中机器人数据的非IID性更为显著。
假设机器人全年无休地运行:
一年 = 365.25天 × 24小时 × 3600秒 ≈ 31,557,600秒
以10 fps计算,要达到2万亿token需要 约6377年。
这一假设已经非常理想化(24/7持续运行且每秒都收集到有用数据),现实中显然无法达到。我们将时间需求放大10倍并四舍五入,得到 约7万机器人年(Robot-Years)才能收集到相当于Llama2规模的2万亿token。
对于单台机器人来说,这显然是不可能完成的任务。但机器人并非孤军奋战。Ken Goldberg教授提出了几种弥合这一巨大数据鸿沟的方法。Andra Keay在博客中写道:
Goldberg提出了四种方法弥合数据鸿沟:模拟、视频数据、人类遥控操作(Human Teleoperation)和现实世界生产数据。他强调机器人系统的可靠性和适应性,主张将数据收集与传统工程实践结合。
方法一:扩大机器人集群
全球已经部署了数量庞大的机器人。
- AMR(自主移动机器人):每年出货量在数十万台,到2030年预计将达数百万台。
- 固定臂工业机器人:2023年全球运行量约400万台。
- 机器狗:Boston Dynamics截至2023年底已售出超1000台,未来市场前景广阔。
- 无人机:美国注册数量超100万台,Skydio已生产约4万台。
- 服务机器人、养老护理机器人:在多个新兴领域加速发展。
然而,问题在于:这些机器人产生的有用数据极少。大多数机器人在单一环境中反复执行同一任务,缺乏多样性和复杂性。因此,用于训练“机器人GPT”的真正有价值数据将大幅减少。
相比之下,能执行多样化任务的人形机器人更具潜力。目前全球可能仅有数百到数千台人形机器人。Tesla计划量产数千台,Hyundai也表示有意生产数万台Boston Dynamics机器人。中国六家厂商(如Unitree、Agibot)计划在2025年前生产1000台。
若能管理一个1000台机器人集群,运行一年,收集到的大量多样化数据将显著缩短差距。虽然这是一个数十亿规模的项目,但理论上可行。具备承担能力的公司可能只有Figure和Tesla。
方法二:模拟与现实的协同
机器人数据生成异常困难。尤其对于通用家用机器人,数据不仅要足够多,还必须在任务和环境上具有多样性。
参考论文《Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation》(Maddukuri等,NVIDIA GEAR实验室),研究者提出:
- 每项任务收集10次真实演示
- 基于这10次演示生成约1000次模拟演示
也就是说,模拟数据可将真实数据需求减少约 100倍。
由此,原本需要7万年才能收集的数据,借助模拟后只需 约700年。再考虑1000台机器人并行,所需时间可降至 不到1年。
不过,模拟数据并非“无限可扩展”。它在某些场景(如强化学习)表现优异,但在物理交互等方面仍有差距。因此更稳妥的估计是:模拟数据能大幅降低需求,但难以完全替代真实数据。
方法三:人类视频数据
另一条路径是直接利用人类视频数据来教机器人技能。例如:
- Tesla展示过机器人从人类视频中学习的案例
- EgoZero利用用户佩戴Aria眼镜收集演示数据
- 《Humanoid Policy ~ Human Policy》尝试将人类与人形机器人数据共同训练
- DreamGen利用世界模型扩展机器人任务学习
根据相关研究估算,人类视频数据与人形机器人数据的比例约为 10:1。
综合计算,我们假设:
- 1000台机器人并行采集
- 每年真实数据对应10年模拟数据
- 再加上10年人类视频数据
那么:
7万年 ÷ 1000(机器人并行) ÷ 10(模拟) ÷ 10(视频) ≈ 0.7年
换句话说,在这种假设下,仅需不到一年就能获得与Llama2同等规模(2万亿token)的机器人数据。虽然这是一个数十亿级别的项目,但在Figure或Tesla这样的公司看来并非不可实现。
结语
这一推演基于若干关键假设:
1. 数据必须足够“有趣”,即具备任务和环境多样性。实验室数据过于单一,工业环境数据也可能不足。
2. 我假设每秒仅能得到10个有价值token,可能偏悲观。若单帧图像可转化为更多token,时间可进一步缩短。
3. 我假设不同模态数据可以叠加,模拟、人类视频和真实机器人数据各自补充,提升模型泛化能力。但若机器人学习的真正难点在于物理交互,则可能需要更多真实数据。
总体而言,这些估算勾勒出一个相对乐观的前景:在未来几年内,数万亿token级的机器人数据并非遥不可及。若由多家公司组成联盟,或由政府主导类似“曼哈顿计划”的项目,完全可能在几年时间内实现。最大挑战或许不是数据生成本身,而是如何有效整合和利用这些海量数据。
机器人模仿学习的规模定律
运行一家结合人工智能与机器人的公司成本极高。数据收集既昂贵又耗时,计算资源价格不菲,基础设施也需投入建设。为了在学习上做出大规模投资,我们必须明确:回报是否值得。
近期,Fanqi Lin等人发表了论文《机器人操作中的模仿学习数据规模定律(Data Scaling Laws in Imitation Learning for Robotic Manipulation)》,探讨了一个核心问题:是否可以通过适度的数据扩展,训练出适用于任意机器人和环境的通用操作策略(Manipulation Policies)。
这项研究成果显著,该论文在机器人学习顶会 CoRL 的工作坊中荣获最佳论文奖。
什么是规模定律?
训练神经网络通常涉及三类关键资源:
- 参数量(Parameter Count):模型规模
- 训练 token 数(Number of Training Tokens):数据规模
- 计算预算(Compute Budget):GPU 小时数
我们预期这些资源与模型损失(Loss)之间呈幂律关系(Power Law Relationship),即:更多的数据、参数和计算预算能带来更好的性能表现。
事实确实如此。计算资源和训练 token 的增加,往往会以接近指数的方式提升模型性能。
例如,Google DeepMind 曾在论文《训练计算最优的大型语言模型(Training Compute-Optimal Large Language Models)》中提出,GPT-3 时代的模型训练实际上严重不足。这篇论文尽管引用量不高,却具有重要影响力。
需要强调的是,所谓“定律”并非严格意义上的自然法则,而更接近经验规律。简而言之,当模型参数翻倍时,训练数据量也应随之翻倍。更多关于规模定律的背景,可参考 Nathan Lambert 的博客文章。
为什么规模定律对机器人重要?
当下,业界普遍希望训练机器人模型,但最大障碍在于:缺乏大规模数据集。同时,许多公司也没有能够支持大规模训练的团队和基础设施。因此,如何在有限资源下合理安排建设顺序至关重要。
在单代理视频游戏中,规模定律已有一定研究。然而,现实世界的机器人任务更复杂,相应的数据研究仍极少,原因在于:这些数据大多尚未被收集。
在机器人领域,我们尤其关注泛化能力(Generalization):机器人必须能够适应不同环境、操作不同物体、应对不同光照条件。然而,即便是目前最大的机器人数据集(如 Open X Embodiment),规模依旧微不足道。
来自规模定律的实验
在《机器人操作中的模仿学习数据规模定律》中,作者为 32 种物体各收集了 120 次演示,涵盖两类任务:倒水(Pour Water)与鼠标摆放(Mouse Arrangement)。他们还在 32 个训练环境中分别进行了实验,并增加了物体与环境同时变化的组合任务。最终,经过 SLAM 过滤后,共获得约 3820 次演示数据。
研究的最重要结论是:当数据量足够大时,数据多样性明显优于单一环境中的重复数据。
这一结论在其他研究中也得到验证。例如,《机器人实用模型(Robot Utility Models, RUM)》采用了类似方法。
数据多样性的重要性
在《机器人实用模型》中,研究者使用一款名为 “Stick” 的工具,在 40 个不同环境中收集了 1000 段演示视频。首席作者 Haritheja 甚至在全新家具环境中进行了现场演示。我自己在家中也试用过这个工具,确实高效。
与前一篇论文不同,RUM 研究的任务更加多样,共包含五类:
1. 开门(Door Opening)
2. 开抽屉(Drawer Opening)
3. 物体重新定位(Reorientation,例如将瓶子扶正)
4. 纸巾抽取(Tissue Pickup,从盒中抽纸)
5. 塑料袋拾取(Bag Pickup,从平面上拾起袋子)
在完全未见过的环境中,RUM 仍取得了 90% 的成功率。其关键就在于“Stick”工具能快速收集高度多样化的数据。
为了验证这一点,RUM 进行了对比实验:
相同数据量下,多环境少样本与 单环境多样本的效果孰优孰劣。结果再次表明:数据多样性胜出。
主要结论
这些研究逐渐形成了以下共识:
1. 泛化能力与环境多样性呈幂律关系:更多不同环境带来更强泛化能力。
2. 单一环境数据的边际效应递减:即使收集数百万条单一环境的演示,也无法训练出通用机器人智能。
3. 数据集必须具备多样性:至少应涵盖数十种环境、物体和光照条件。RUM 的实验表明,40 个环境是一个合理起点。
4. 多样性需要高效收集方式:例如,RUM 使用 Stick 工具,规模定律研究使用 UMI 工具。要在现实中实现这一点,机器人必须便携且安全(如 Stretch、1x Neo 或轻量级 Booster T1)。
将机器人技能从模拟带到现实世界
机器人数据生成极其困难,至今仍是一个未解决的难题。对于家用机器人而言,数据不仅需要充足,更必须在关键维度上具备多样性——同一任务需在不同环境中、针对不同物体反复执行。
因此,要训练有效的方法,就必须收集大量高质量数据。虽然可以通过多人在现实环境中收集,但这种方式成本高昂、实施困难,于是业界逐渐转向模拟作为解决方案。
数据收集的挑战
一个核心问题是:数据必须保持高质量。
这意味着无法依赖像 UMI 夹爪或 Stick 工具那样的广泛分发来批量生成数据,而是需要通过单一策略收集,以降低噪音。理想情况下,数据应来自同一来源。但这也导致现实环境中的扩展性极具挑战,因此出现了如 Sensei 这样专注于机器人训练数据收集的公司。
此外,目前的模仿学习方法若要实现有效扩展,数据还需经过严格筛选。这类方法通常要求依赖精通系统的专家进行遥控操作,显著增加了成本,同时占用了稀缺专家的时间。更重要的是,这种方式很难覆盖多样化的环境。
模拟在这一点上展现出独特潜力,可以在多个层面缓解这些问题。
我们看到一些初创公司已经进入这一领域:
- Hillbot:专注于货架补货的 Sim-to-Real 策略
- Scaled Foundations:发布了 AirGen,一个新的机器人数据模拟平台
- Electric Sheep:借助 NVIDIA Omniverse 训练园艺场景的模拟到现实策略
- Skild:通过 Sim-to-Real 学习完成了 3 亿美元 A 轮融资
- Lucky Robots:构建面向机器人基础模型的高保真模拟环境
在学术界,也出现了完全基于模拟的成功案例。例如,Poliformer(CoRL 2024 最佳论文)和 Harmonic Mobile Manipulation(IROS 2024 最佳论文),均依托 AI2 Thor 程序化生成环境实现了从模拟到现实的训练(见上视频)。
视觉域随机化(Visual Domain Randomization)
通用视觉运动策略(Visuomotor Policy)学习的关键依旧是数据多样性。
数据规模固然重要,但更重要的是能够正确捕捉并覆盖目标分布之外的多样性。这一逻辑在大型语言模型(如 NVIDIA 的 NVLM)和机器人策略学习中都成立。过去的工作大量采用域随机化方法,例如 NVIDIA 的早期研究 DOPE[4]和 SORNet[5]。
基本配方看似简单:尽可能随机化纹理、房间布局和环境,创造足够多样的训练场景。
对于姿态估计(Pose Estimation)或状态分类(State Classification)任务,这并不复杂——背景可从 MS-COCO 等大型图像库随机抽取,光源位置可调整,物体反射率可修改。但对于复杂的视觉运动策略,如导航与移动操作,环境必须复杂得多,因此挑战更大。
这也是为什么 RoboCasa[1]和 ProcThor[6]通过程序化生成来构建训练环境。例如,ProcThor 可以自动生成房间结构,并添加门与物体,从而批量创建复杂且逼真的训练场景。后续研究表明,这一方向非常有效。
以 Poliformer[2]为例,其利用 150,000 个程序化生成的房屋(场景由 Objaverse 开源 3D 模型库填充)扩展导航策略训练,并证明这些策略能在现实世界中奏效。Poliformer 使用强化学习训练导航代理。
AI2 的相关研究进一步展示了完全基于模拟实现的移动操作(包括移动与抓取),尽管采用的是模仿学习方法。与此同时,ManipGen[9] 展示了在大量任务与环境中的泛化能力,其核心做法是:在程序化生成的桌面场景中训练,并利用视觉语言模型(VLM)来协调局部策略。
模拟任务的自动化生成
尽管模拟展现出强大潜力,但任务创建和奖励设计仍需大量人工工程。Eureka[7] 和 Eurekaverse[8] 提供了一条有前景的路径:利用大型语言模型程序化生成任务与奖励函数。这种方法有望显著扩大模拟训练的规模,并已在部分 Sim-to-Real 实验中展现出效果。
当前的局限性
尽管 Sim-to-Real 发展迅速,并展现出训练通用机器人策略的潜力,但它仍存在一些关键局限:
语义迁移不足:目前还难以将语义知识从模拟完全转移到现实。例如,Poliformer 使用的 Detic 物体检测器依然依赖现实世界数据进行训练。OVMM 研究中也发现,从 RGB 图像直接学习开放词汇物体识别效果不佳。
局部策略依赖辅助模块:如 ManipGen 所示,局部策略仍需 VLM 协调,同时依赖物体检测器与运动规划器来定位并执行技能。
多模型协同而非单一模型:目前更可行的路线是结合生成式 AI 与现实世界数据处理分布外物体,同时利用 Sim-to-Real 技术解决导航和部分操作问题。这意味着我们依赖的是模型体系,而非一个端到端的统一策略。
在这一方向上,已有多项研究深耕。例如 NVIDIA 的 DextaH-G[10]和 现实世界中的物体导航[11],以及 DeepMind 的足球机器人[13]。虽然有些研究(如 Dextreme[12])的环境随机化程度有限,但依然具有重要参考价值。
参考资料:
- Paxton, C. (2024, November 14). What are the data scaling laws for imitation learning in robotics? IT Can Think. https://itcanthink.substack.com/p/what-are-the-data-scaling-laws-for
- Paxton, C. (2024, November 22). Bringing robot skills from simulation to the real world. IT Can Think. https://itcanthink.substack.com/p/bringing-robot-skills-from-simulation
- Paxton, C. (2025, June 10). How can we get enough data to train a robot GPT? IT Can Think. https://itcanthink.substack.com/p/how-can-we-get-enough-data-to-train
转载自Andy730,作者:常华
