如何获取足够的数据来训练机器人GPT？

发布于 2025-8-19 07:55

浏览

0收藏

一、核心命题

训练“机器人GPT”式通用机器人基础模型的关键瓶颈在于“机器人数据鸿沟”：现有数据集规模远低于数万亿token，且缺乏多样性（跨环境、物体、任务、光照）。要实现2万亿token目标，传统单机采集需数万年，但通过组合现实机器人集群、模拟数据和人类视频数据，可在几年内接近目标。这需数十亿美元级投资，但2025年进展（如NVIDIA的Project GR00T更新和Skild AI的通用机器人脑）显示技术路径日益成熟，凸显合成数据和高保真模拟的作用。

二、量化与假设：从算账出发

基本假设：机器人以10 fps采集，每帧约1个“有价值token”（考虑机器人数据冗余及非IID特性，信息密度远低于文本token），24/7运行下，单机需约6,377年达2×10¹² token。放宽现实因素（如间歇运行、数据过滤），基线取约70,000机器人年。

三个缩放杠杆与粗略倍率（基于乐观估算，结合2025年更新）：

1. 机器人集群：如1,000台多任务人形机器人并行（参考Tesla/Figure计划的数千台规模及2025年人形机器人出货激增）。

2. 模拟数据：参考“Sim-and-Real Co-Training”及2025年进展（如NVIDIA Isaac Lab的zero-shot转移框架），等效放大1:100至1:1,000（DrEureka利用LLM加速sim-to-real设计）。

3. 人类视频数据：人类与机器人数据等效比约10:1，2025年工作如EgoVLA（基于500k人类第一人称视频预训练）显示更高效率。

综合：70,000年 ÷ (1,000 × 10 × 10) ≈ 0.7年。考虑数据质量与泛化（如AutoRT收集77k真实episode，强调多样性），实际可能需调整为几年。

三、三类数据源的逻辑角色

1. 现实世界机器人集群：

2025年全球存量巨大（AMR预计数百万台，人形如Figure 02达数千台），但多限于同质环境。价值在于多任务部署（如NVIDIA GR00T的认知基础模型），需通过遥控操作采集失败轨迹。2025年更新：Agility Robotics等强调真实teleop数据对泛化的关键作用。

2. 模拟与现实协同（Sim-to-Real Co-Training）：

以少量真实演示扩展大规模模拟（比率1:100+），2025年进展如NVIDIA的Isaac GR00T云到机器人平台及MIT的real-to-sim-to-real（通过手机捕获环境，加速模拟训练）。模拟对强化学习（RL）有效，但需域随机化覆盖现实复杂性；Omniverse平台支持程序化生成。

3. 人类视频数据：

从人类演示蒸馏技能（如Tesla视频、EgoZero的Aria眼镜数据），2025年如Autoregressive Robotic Model（从无标签人类视频学习4D表示）和EgoVLA（第一人称视频桥接人类与机器人动作空间）。对长尾行为关键，效率高，但需匹配机器人形态。

四、“多样性优先”的证据链：模仿学习的规模定律

模型能力与参数、token、计算呈幂律关系，但机器人领域多样性优于数量：多环境覆盖优于单环境海量样本。2025年共识从研究延伸：

Data Scaling Laws in Imitation Learning：多环境演示显著提升泛化能力。

Robot Utility Models (RUM)：在≥40环境下实现90%未见环境成功率，环境数量与性能呈幂律关系。

2025年更新：《Foundation Models for Robotics》综述确认多样数据驱动自主性；EgoVLA消融实验显示，机器人demo数据减半导致长任务成功率骤降（45%→7%），凸显人类预训练的重要性。

行业共识：

1. 泛化能力随环境及物体数量呈幂律上升。

2. 单一环境存在边际递减效应。

3. 下限需≥40~100环境（如AutoRT的野外多样数据），并需便捷工具（如Stick/UMI）高效采集。

五、Sim-to-Real 的方法学与边界

域随机化与程序化生成：随机化纹理、布局、物体（基于Objaverse库），如ProcThor生成15万房屋，支持Poliformer（2024 CoRL最佳论文）的导航转移。2025年进展：real-is-sim动态数字孪生缩小差距；AutoMate训练多样几何装配；DrEureka利用LLM自动化奖励与任务生成，扩展覆盖面。

任务自动化：Eureka/Eurekaverse用LLM生成函数，加速模拟学习。

当前局限：

1. 语义迁移薄弱：需真实数据训练检测器（如Detic）。

2. 复杂操作依赖VLM协调、局部策略及规划（如ManipGen）。

3. 现实数据对分布外物体及物理交互不可或缺（2025年调研确认传感器噪声与域移仍为挑战）；高保真模拟（如Cosmos WFM）有所缓解，但非万能。

六、关键假设与不确定性（作者自我校准）

Token估算：每帧1 token为保守估计；若单帧可提炼数百有效token（经过去冗余处理），进度将更快。

模态叠加：假设模拟与人类数据互补可能高估效果；若存在重叠，收益降低。

物理难点：夹爪与环境的物理交互需更多真实数据；2025年讨论（如“Reality Gap”帖子）强调边缘案例的挑战。

额外不确定性：强化学习长期训练可能导致遗忘（ProRL论文警告）；机器人数据饥饿（仅500k对比LLM的万亿）需合成数据填补，但质量存风险。

七、面向落地的策略建议（数据/系统/组织一体化）

1. 以“多样性为先”的数据路线图：

确保每个技能覆盖≥40~100环境，涵盖多物体与光照；建立家庭与工业环境谱系，优先处理长尾任务。

2. 三源合一的采集体系：

现实集群：部署人形平台（如Figure 02），通过遥控闭环采集难例；整合AutoRT式多机器人野外数据。

模拟平台：构建程序化流水线（如Isaac Lab），版本化场景库；利用DrEureka自动化奖励生成。

人类视频：建立授权流程，聚焦匹配机器人形态的分布（如EgoVLA第一人称视频），结合无标签学习。

3. 数据度量与“有效 token”定义：

将token操作化为信息密度（TD-error、成功标注），通过难度采样与去重提升效率；参考Functional Benchmarks评估真实推理能力，而非记忆。

4. 训练架构：

采用VLM协调与局部策略组合；模拟预训练控制模块，现实数据精调语义模块；动作分块（如50Hz扩散头预测1秒动作）。

5. 计算与预算规划：

按幂律关系协同扩展参数、token与算力（参考DeepMind Compute-Optimal）；构建训练-评估-数据回灌闭环；2025年Skild AI强调预训练与后训练配方。

6. 组织与生态：

推动“曼哈顿计划”式联盟（跨公司如NVIDIA/Covariant、政府）；统一数据格式与隐私标准（如去中心化平台）；降低数据汇集的组织摩擦，聚焦真实数据共享。

八、一句话结论

要在几年内达到2T token级别，需以多样性优先，构建现实集群、程序化模拟与人类视频的三元数据引擎，在组合式学习框架下闭环运行，兼顾工程与组织挑战；2025年进展如GR00T更新、Skild Brain和EgoVLA预示突破在即。

如何获取足够的数据来训练机器人GPT？-AI.x社区

如何获取足够的数据来训练机器人GPT？

一项关于扩展机器人数据收集至2万亿token的思想实验

众所周知，大型语言模型（Large Language Models）依赖海量数据进行训练，规模往往达到数万亿token。然而，即使是目前最大的机器人数据集，也远远达不到这一数量级。Physical Intelligence公司在一年时间里收集了约1万小时的机器人数据，用于训练其首个基础模型PI0。Andra Keay在其Substack博客中提到，这正是所谓的“机器人数据鸿沟（Robot Data Gap）”。

若仅依靠传统方式，可能需要数万甚至数十万年才能收集到足够的数据。但我们可以通过多种方式加速这一过程，包括：

扩展机器人集群（Scaling Robot Fleets）
使用模拟数据（Simulation Data）
使用人类视频数据（Human Video Data）

通过整合这些方法，训练“机器人GPT”的数据收集目标才更具可行性。然而，所需资源已超出学术实验室的能力范围，需要巨额资金投入。

接下来，让我们深入探讨这一问题。

如何获取足够的数据来训练机器人GPT？-AI.x社区

这些估算在某些方面可能过于乐观。我们先做一个简化假设：假设一台机器人以10帧/秒（10 fps）的速度采集数据，每帧生成1个有价值的token。之所以这样设定，是因为机器人token的“信息密度”远低于语言模型token。例如，Qwen或Llama的数据包含丰富语义，而机器人图像帧往往冗余度高。

进一步地，机器学习通常在独立同分布（IID）的数据集上表现最好，而无论是网络数据还是机器人数据，都不具备严格的IID特性，其中机器人数据的非IID性更为显著。

假设机器人全年无休地运行：

一年 = 365.25天 × 24小时 × 3600秒 ≈ 31,557,600秒

以10 fps计算，要达到2万亿token需要约6377年。

这一假设已经非常理想化（24/7持续运行且每秒都收集到有用数据），现实中显然无法达到。我们将时间需求放大10倍并四舍五入，得到约7万机器人年（Robot-Years）才能收集到相当于Llama2规模的2万亿token。

对于单台机器人来说，这显然是不可能完成的任务。但机器人并非孤军奋战。Ken Goldberg教授提出了几种弥合这一巨大数据鸿沟的方法。Andra Keay在博客中写道：

Goldberg提出了四种方法弥合数据鸿沟：模拟、视频数据、人类遥控操作（Human Teleoperation）和现实世界生产数据。他强调机器人系统的可靠性和适应性，主张将数据收集与传统工程实践结合。

方法一：扩大机器人集群

全球已经部署了数量庞大的机器人。

AMR（自主移动机器人）：每年出货量在数十万台，到2030年预计将达数百万台。
固定臂工业机器人：2023年全球运行量约400万台。
机器狗：Boston Dynamics截至2023年底已售出超1000台，未来市场前景广阔。
无人机：美国注册数量超100万台，Skydio已生产约4万台。
服务机器人、养老护理机器人：在多个新兴领域加速发展。

然而，问题在于：这些机器人产生的有用数据极少。大多数机器人在单一环境中反复执行同一任务，缺乏多样性和复杂性。因此，用于训练“机器人GPT”的真正有价值数据将大幅减少。

相比之下，能执行多样化任务的人形机器人更具潜力。目前全球可能仅有数百到数千台人形机器人。Tesla计划量产数千台，Hyundai也表示有意生产数万台Boston Dynamics机器人。中国六家厂商（如Unitree、Agibot）计划在2025年前生产1000台。

若能管理一个1000台机器人集群，运行一年，收集到的大量多样化数据将显著缩短差距。虽然这是一个数十亿规模的项目，但理论上可行。具备承担能力的公司可能只有Figure和Tesla。

方法二：模拟与现实的协同

机器人数据生成异常困难。尤其对于通用家用机器人，数据不仅要足够多，还必须在任务和环境上具有多样性。

如何获取足够的数据来训练机器人GPT？-AI.x社区

参考论文《Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation》（Maddukuri等，NVIDIA GEAR实验室），研究者提出：

每项任务收集10次真实演示
基于这10次演示生成约1000次模拟演示

也就是说，模拟数据可将真实数据需求减少约 100倍。

由此，原本需要7万年才能收集的数据，借助模拟后只需约700年。再考虑1000台机器人并行，所需时间可降至不到1年。

不过，模拟数据并非“无限可扩展”。它在某些场景（如强化学习）表现优异，但在物理交互等方面仍有差距。因此更稳妥的估计是：模拟数据能大幅降低需求，但难以完全替代真实数据。

方法三：人类视频数据

另一条路径是直接利用人类视频数据来教机器人技能。例如：

Tesla展示过机器人从人类视频中学习的案例
EgoZero利用用户佩戴Aria眼镜收集演示数据
《Humanoid Policy ~ Human Policy》尝试将人类与人形机器人数据共同训练
DreamGen利用世界模型扩展机器人任务学习

根据相关研究估算，人类视频数据与人形机器人数据的比例约为 10:1。

综合计算，我们假设：

1000台机器人并行采集
每年真实数据对应10年模拟数据
再加上10年人类视频数据

那么：

7万年 ÷ 1000（机器人并行） ÷ 10（模拟） ÷ 10（视频） ≈ 0.7年

换句话说，在这种假设下，仅需不到一年就能获得与Llama2同等规模（2万亿token）的机器人数据。虽然这是一个数十亿级别的项目，但在Figure或Tesla这样的公司看来并非不可实现。

结语

这一推演基于若干关键假设：

1. 数据必须足够“有趣”，即具备任务和环境多样性。实验室数据过于单一，工业环境数据也可能不足。

2. 我假设每秒仅能得到10个有价值token，可能偏悲观。若单帧图像可转化为更多token，时间可进一步缩短。

3. 我假设不同模态数据可以叠加，模拟、人类视频和真实机器人数据各自补充，提升模型泛化能力。但若机器人学习的真正难点在于物理交互，则可能需要更多真实数据。

总体而言，这些估算勾勒出一个相对乐观的前景：在未来几年内，数万亿token级的机器人数据并非遥不可及。若由多家公司组成联盟，或由政府主导类似“曼哈顿计划”的项目，完全可能在几年时间内实现。最大挑战或许不是数据生成本身，而是如何有效整合和利用这些海量数据。

机器人模仿学习的规模定律

运行一家结合人工智能与机器人的公司成本极高。数据收集既昂贵又耗时，计算资源价格不菲，基础设施也需投入建设。为了在学习上做出大规模投资，我们必须明确：回报是否值得。

如何获取足够的数据来训练机器人GPT？-AI.x社区

近期，Fanqi Lin等人发表了论文《机器人操作中的模仿学习数据规模定律（Data Scaling Laws in Imitation Learning for Robotic Manipulation）》，探讨了一个核心问题：是否可以通过适度的数据扩展，训练出适用于任意机器人和环境的通用操作策略（Manipulation Policies）。

如何获取足够的数据来训练机器人GPT？-AI.x社区

这项研究成果显著，该论文在机器人学习顶会 CoRL 的工作坊中荣获最佳论文奖。

什么是规模定律？

训练神经网络通常涉及三类关键资源：

参数量（Parameter Count）：模型规模
训练 token 数（Number of Training Tokens）：数据规模
计算预算（Compute Budget）：GPU 小时数

我们预期这些资源与模型损失（Loss）之间呈幂律关系（Power Law Relationship），即：更多的数据、参数和计算预算能带来更好的性能表现。

如何获取足够的数据来训练机器人GPT？-AI.x社区

事实确实如此。计算资源和训练 token 的增加，往往会以接近指数的方式提升模型性能。

如何获取足够的数据来训练机器人GPT？-AI.x社区

例如，Google DeepMind 曾在论文《训练计算最优的大型语言模型（Training Compute-Optimal Large Language Models）》中提出，GPT-3 时代的模型训练实际上严重不足。这篇论文尽管引用量不高，却具有重要影响力。

需要强调的是，所谓“定律”并非严格意义上的自然法则，而更接近经验规律。简而言之，当模型参数翻倍时，训练数据量也应随之翻倍。更多关于规模定律的背景，可参考 Nathan Lambert 的博客文章。

为什么规模定律对机器人重要？

当下，业界普遍希望训练机器人模型，但最大障碍在于：缺乏大规模数据集。同时，许多公司也没有能够支持大规模训练的团队和基础设施。因此，如何在有限资源下合理安排建设顺序至关重要。

在单代理视频游戏中，规模定律已有一定研究。然而，现实世界的机器人任务更复杂，相应的数据研究仍极少，原因在于：这些数据大多尚未被收集。

在机器人领域，我们尤其关注泛化能力（Generalization）：机器人必须能够适应不同环境、操作不同物体、应对不同光照条件。然而，即便是目前最大的机器人数据集（如 Open X Embodiment），规模依旧微不足道。

如何获取足够的数据来训练机器人GPT？-AI.x社区

来自规模定律的实验

在《机器人操作中的模仿学习数据规模定律》中，作者为 32 种物体各收集了 120 次演示，涵盖两类任务：倒水（Pour Water）与鼠标摆放（Mouse Arrangement）。他们还在 32 个训练环境中分别进行了实验，并增加了物体与环境同时变化的组合任务。最终，经过 SLAM 过滤后，共获得约 3820 次演示数据。

如何获取足够的数据来训练机器人GPT？-AI.x社区

研究的最重要结论是：当数据量足够大时，数据多样性明显优于单一环境中的重复数据。

这一结论在其他研究中也得到验证。例如，《机器人实用模型（Robot Utility Models, RUM）》采用了类似方法。

数据多样性的重要性

在《机器人实用模型》中，研究者使用一款名为 “Stick” 的工具，在 40 个不同环境中收集了 1000 段演示视频。首席作者 Haritheja 甚至在全新家具环境中进行了现场演示。我自己在家中也试用过这个工具，确实高效。

与前一篇论文不同，RUM 研究的任务更加多样，共包含五类：

1. 开门（Door Opening）

2. 开抽屉（Drawer Opening）

3. 物体重新定位（Reorientation，例如将瓶子扶正）

4. 纸巾抽取（Tissue Pickup，从盒中抽纸）

5. 塑料袋拾取（Bag Pickup，从平面上拾起袋子）

在完全未见过的环境中，RUM 仍取得了 90% 的成功率。其关键就在于“Stick”工具能快速收集高度多样化的数据。

为了验证这一点，RUM 进行了对比实验：

如何获取足够的数据来训练机器人GPT？-AI.x社区

相同数据量下，多环境少样本与单环境多样本的效果孰优孰劣。结果再次表明：数据多样性胜出。

主要结论

这些研究逐渐形成了以下共识：

1. 泛化能力与环境多样性呈幂律关系：更多不同环境带来更强泛化能力。

2. 单一环境数据的边际效应递减：即使收集数百万条单一环境的演示，也无法训练出通用机器人智能。

3. 数据集必须具备多样性：至少应涵盖数十种环境、物体和光照条件。RUM 的实验表明，40 个环境是一个合理起点。

4. 多样性需要高效收集方式：例如，RUM 使用 Stick 工具，规模定律研究使用 UMI 工具。要在现实中实现这一点，机器人必须便携且安全（如 Stretch、1x Neo 或轻量级 Booster T1）。

将机器人技能从模拟带到现实世界

机器人数据生成极其困难，至今仍是一个未解决的难题。对于家用机器人而言，数据不仅需要充足，更必须在关键维度上具备多样性——同一任务需在不同环境中、针对不同物体反复执行。

因此，要训练有效的方法，就必须收集大量高质量数据。虽然可以通过多人在现实环境中收集，但这种方式成本高昂、实施困难，于是业界逐渐转向模拟作为解决方案。

数据收集的挑战

一个核心问题是：数据必须保持高质量。

这意味着无法依赖像 UMI 夹爪或 Stick 工具那样的广泛分发来批量生成数据，而是需要通过单一策略收集，以降低噪音。理想情况下，数据应来自同一来源。但这也导致现实环境中的扩展性极具挑战，因此出现了如 Sensei 这样专注于机器人训练数据收集的公司。

如何获取足够的数据来训练机器人GPT？-AI.x社区

此外，目前的模仿学习方法若要实现有效扩展，数据还需经过严格筛选。这类方法通常要求依赖精通系统的专家进行遥控操作，显著增加了成本，同时占用了稀缺专家的时间。更重要的是，这种方式很难覆盖多样化的环境。

模拟在这一点上展现出独特潜力，可以在多个层面缓解这些问题。

我们看到一些初创公司已经进入这一领域：

Hillbot：专注于货架补货的 Sim-to-Real 策略
Scaled Foundations：发布了 AirGen，一个新的机器人数据模拟平台
Electric Sheep：借助 NVIDIA Omniverse 训练园艺场景的模拟到现实策略
Skild：通过 Sim-to-Real 学习完成了 3 亿美元 A 轮融资
Lucky Robots：构建面向机器人基础模型的高保真模拟环境

在学术界，也出现了完全基于模拟的成功案例。例如，Poliformer（CoRL 2024 最佳论文）和 Harmonic Mobile Manipulation（IROS 2024 最佳论文），均依托 AI2 Thor 程序化生成环境实现了从模拟到现实的训练（见上视频）。

视觉域随机化（Visual Domain Randomization）

通用视觉运动策略（Visuomotor Policy）学习的关键依旧是数据多样性。

数据规模固然重要，但更重要的是能够正确捕捉并覆盖目标分布之外的多样性。这一逻辑在大型语言模型（如 NVIDIA 的 NVLM）和机器人策略学习中都成立。过去的工作大量采用域随机化方法，例如 NVIDIA 的早期研究 DOPE[4]和 SORNet[5]。

基本配方看似简单：尽可能随机化纹理、房间布局和环境，创造足够多样的训练场景。

对于姿态估计（Pose Estimation）或状态分类（State Classification）任务，这并不复杂——背景可从 MS-COCO 等大型图像库随机抽取，光源位置可调整，物体反射率可修改。但对于复杂的视觉运动策略，如导航与移动操作，环境必须复杂得多，因此挑战更大。

如何获取足够的数据来训练机器人GPT？-AI.x社区

这也是为什么 RoboCasa[1]和 ProcThor[6]通过程序化生成来构建训练环境。例如，ProcThor 可以自动生成房间结构，并添加门与物体，从而批量创建复杂且逼真的训练场景。后续研究表明，这一方向非常有效。

如何获取足够的数据来训练机器人GPT？-AI.x社区

以 Poliformer[2]为例，其利用 150,000 个程序化生成的房屋（场景由 Objaverse 开源 3D 模型库填充）扩展导航策略训练，并证明这些策略能在现实世界中奏效。Poliformer 使用强化学习训练导航代理。

AI2 的相关研究进一步展示了完全基于模拟实现的移动操作（包括移动与抓取），尽管采用的是模仿学习方法。与此同时，ManipGen[9] 展示了在大量任务与环境中的泛化能力，其核心做法是：在程序化生成的桌面场景中训练，并利用视觉语言模型（VLM）来协调局部策略。

模拟任务的自动化生成

尽管模拟展现出强大潜力，但任务创建和奖励设计仍需大量人工工程。Eureka[7] 和 Eurekaverse[8] 提供了一条有前景的路径：利用大型语言模型程序化生成任务与奖励函数。这种方法有望显著扩大模拟训练的规模，并已在部分 Sim-to-Real 实验中展现出效果。

当前的局限性

尽管 Sim-to-Real 发展迅速，并展现出训练通用机器人策略的潜力，但它仍存在一些关键局限：

语义迁移不足：目前还难以将语义知识从模拟完全转移到现实。例如，Poliformer 使用的 Detic 物体检测器依然依赖现实世界数据进行训练。OVMM 研究中也发现，从 RGB 图像直接学习开放词汇物体识别效果不佳。

局部策略依赖辅助模块：如 ManipGen 所示，局部策略仍需 VLM 协调，同时依赖物体检测器与运动规划器来定位并执行技能。

多模型协同而非单一模型：目前更可行的路线是结合生成式 AI 与现实世界数据处理分布外物体，同时利用 Sim-to-Real 技术解决导航和部分操作问题。这意味着我们依赖的是模型体系，而非一个端到端的统一策略。

在这一方向上，已有多项研究深耕。例如 NVIDIA 的 DextaH-G[10]和现实世界中的物体导航[11]，以及 DeepMind 的足球机器人[13]。虽然有些研究（如 Dextreme[12]）的环境随机化程度有限，但依然具有重要参考价值。

参考资料：

Paxton, C. (2024, November 14). What are the data scaling laws for imitation learning in robotics? IT Can Think. https://itcanthink.substack.com/p/what-are-the-data-scaling-laws-for
Paxton, C. (2024, November 22). Bringing robot skills from simulation to the real world. IT Can Think. https://itcanthink.substack.com/p/bringing-robot-skills-from-simulation
Paxton, C. (2025, June 10). How can we get enough data to train a robot GPT? IT Can Think. https://itcanthink.substack.com/p/how-can-we-get-enough-data-to-train

转载自Andy730，作者：常华

标签

数据

机器人

GPT

51CTO

51CTO博客

51CTO学堂

如何获取足够的数据来训练机器人GPT？

一、核心命题

二、量化与假设：从算账出发

三个缩放杠杆与粗略倍率（基于乐观估算，结合2025年更新）：

三、三类数据源的逻辑角色

1. 现实世界机器人集群：

2. 模拟与现实协同（Sim-to-Real Co-Training）：

3. 人类视频数据：

四、“多样性优先”的证据链：模仿学习的规模定律

五、Sim-to-Real 的方法学与边界

六、关键假设与不确定性（作者自我校准）

七、面向落地的策略建议（数据/系统/组织一体化）

1. 以“多样性为先”的数据路线图：

2. 三源合一的采集体系：

3. 数据度量与“有效 token”定义：

4. 训练架构：

5. 计算与预算规划：

6. 组织与生态：

八、一句话结论

如何获取足够的数据来训练机器人GPT？

方法一：扩大机器人集群

方法二：模拟与现实的协同

方法三：人类视频数据

机器人模仿学习的规模定律

什么是规模定律？

为什么规模定律对机器人重要？

数据多样性的重要性

主要结论

将机器人技能从模拟带到现实世界

数据收集的挑战

视觉域随机化（Visual Domain Randomization）

模拟任务的自动化生成

当前的局限性

目录

51CTO

51CTO博客

51CTO学堂

如何获取足够的数据来训练机器人GPT？

​一、核心命题

二、量化与假设：从算账出发

三个缩放杠杆与粗略倍率（基于乐观估算，结合2025年更新）：

三、三类数据源的逻辑角色

1. 现实世界机器人集群：

2. 模拟与现实协同（Sim-to-Real Co-Training）：

3. 人类视频数据：

四、“多样性优先”的证据链：模仿学习的规模定律

五、Sim-to-Real 的方法学与边界

六、关键假设与不确定性（作者自我校准）

七、面向落地的策略建议（数据/系统/组织一体化）

1. 以“多样性为先”的数据路线图：

2. 三源合一的采集体系：

3. 数据度量与“有效 token”定义：

4. 训练架构：

5. 计算与预算规划：

6. 组织与生态：

八、一句话结论

如何获取足够的数据来训练机器人GPT？

方法一：扩大机器人集群

方法二：模拟与现实的协同

方法三：人类视频数据

机器人模仿学习的规模定律

什么是规模定律？

为什么规模定律对机器人重要？

数据多样性的重要性

主要结论

将机器人技能从模拟带到现实世界

数据收集的挑战

视觉域随机化（Visual Domain Randomization）

模拟任务的自动化生成

当前的局限性

目录

一、核心命题