大模型如何让机器人 “能思考、会学习”？这篇综述讲透了精华

发布于 2025-8-20 07:13

浏览

0收藏

当机器人能像人类一样在复杂家居环境中自主整理杂物，当智能体可在未知场景中快速学习新技能——这些曾经的科幻场景，正因大模型与具身智能的结合逐渐逼近现实。然而，大模型究竟如何赋予具身智能“思考”与“学习”的能力？当前研究又面临哪些阻碍通用智能实现的瓶颈？这篇综述将为你揭开谜底。

我们解读最新技术，文末有相关信息。

摘要&解读

具身智能旨在开发具有物理形态的智能系统，能够在真实世界环境中进行感知、决策、行动和学习，为通用人工智能（AGI）提供了一条极具前景的路径。尽管经过了数十年的探索，但具身智能体在开放动态环境中完成通用任务时，要达到人类水平的智能仍然面临挑战。近年来，大模型的突破性进展通过增强感知、交互、规划和学习能力，为具身智能带来了革命性变革。本文对大模型赋能的具身智能进行了全面综述，重点关注自主决策和具身学习。我们研究了分层和端到端两种决策范式，详细阐述了大模型如何增强分层决策中的高层规划、低层执行和反馈机制，以及大模型如何增强视觉-语言-动作（VLA）模型以实现端到端决策。在具身学习方面，我们介绍了主流的学习方法，深入探讨了大模型如何增强模仿学习和强化学习。首次将世界模型纳入具身智能综述，阐述了其设计方法以及在增强决策和学习中的关键作用。尽管取得了显著进展，但挑战依然存在，本文最后对此进行了讨论，并指出了未来可能的研究方向。

•研究背景：具身智能致力于开发能在现实世界中感知、决策、行动和学习的物理智能系统，被视为通往AGI的关键路径。早期系统依赖预编程规则，适应性有限；深度学习虽推动其发展，但模型泛化性和迁移性不足。近年来，大模型（如LLM、VLM、VLA等）凭借强大的感知、推理能力，显著提升了具身智能的感知、交互、规划和学习能力。但该领域研究分散，现有综述多聚焦大模型本身或单一组件，缺乏对大模型与具身智能协同机制的系统分析，尤其缺少对VLA模型、端到端决策等最新进展的整合，因此需要全面综述以梳理现状、明确方向。

•研究贡献：

从具身智能视角聚焦大模型赋能，按分层决策（高层规划、低层执行、反馈）和端到端决策（VLA模型）的层次分类研究，并深入分析大模型对模仿学习和强化学习的增强机制；

全面覆盖具身决策（分层与端到端对比）、具身学习（含迁移学习、元学习）及世界模型（设计与在决策、学习中的作用）；

采用横向（对比不同方法）和纵向（追溯模型演化）双分析方法，实现宏观 overview 与深度洞察结合；

首次将世界模型系统整合入具身智能综述，填补了现有研究空白。

•实现设计：

自主决策：分层决策通过大模型增强高层规划（结构化/自然/编程语言规划）、低层执行（传统控制、学习驱动控制、模块化控制）及反馈（大模型自反思、人类反馈、环境反馈）；端到端决策基于VLA模型，包含令牌化与表示、多模态融合、动作去令牌化，并有感知增强（如BYO-VLA）、轨迹优化（如Octo）、成本降低（如TinyVLA）等增强方法。

具身学习：大模型通过扩散模型和Transformer构建策略网络增强模仿学习；通过生成奖励函数（如Eureka）和优化策略网络（扩散模型、Transformer、LLM）增强强化学习。

• 世界模型：设计包括潜在空间（如RSSM）、Transformer-based（如IRIS）、扩散-based（如Sora）、联合嵌入预测架构（JEPA），在决策中用于模拟验证和知识增强，在学习中用于模拟状态转移和生成数据。

•总结技术实验结果：文中引用了多项现有研究的实验结果，例如：RT-2通过联合微调实现了从视觉-语言输入到机器人动作的映射，展现出跨任务泛化能力；Octo在大规模多机器人数据集上训练，实现跨任务泛化；Diffusion-VLA通过扩散过程优化动作序列，提升了复杂任务中的轨迹平滑性；Dreamer V3基于世界模型在连续控制任务中性能超越专门算法；SynthER利用扩散世界模型合成数据，显著提升离线RL性能；π₀通过流匹配降低计算开销，提高实时控制精度。

1.引言

具身智能[209]旨在开发具有物理形态的智能系统，能够在真实世界环境中进行感知、决策、行动和学习。它认为真正的智能源于智能体与环境的交互，为通用人工智能（AGI）[184]提供了一条极具前景的路径。尽管对具身智能的探索已跨越数十年，但要赋予智能体人类水平的智能，使其能在开放、非结构化和动态环境中执行通用任务，仍然是一项挑战。早期的具身智能系统[21, 200]基于符号推理和行为主义，依赖于僵化的预编程规则，适应性有限且智能程度较浅。尽管机器人在制造业、物流和专业操作中得到广泛应用，但其功能仅限于受控环境。机器学习[133]，特别是深度学习[99]的进展，标志着具身智能的转折点。视觉引导规划和基于强化学习的控制[173]显著降低了智能体对精确环境建模的依赖。尽管取得了这些进展，但这些模型通常在特定任务数据集上训练，在泛化性和迁移性方面仍面临挑战，限制了它们在多样化场景中的通用应用。近年来，大模型[149, 150, 182, 183]的突破性进展显著提升了具身智能的能力。凭借精确的感知、交互和规划能力，这些模型为通用具身智能体奠定了基础[137]。然而，大模型赋能的具身智能领域仍处于起步阶段，在泛化性、可扩展性和与环境的无缝交互方面面临挑战[177]。迫切需要对大模型赋能的具身智能的最新进展进行全面系统的综述，以解决在追求AGI过程中的差距、挑战和机遇。

通过对这些领域的全面调查，我们发现当前的研究较为分散，主题复杂但缺乏系统分类。现有综述主要关注大模型本身，如大型语言模型（LLM）[29, 151, 225]和视觉语言模型（VLM）[104, 113, 191]，而很少关注大模型与具身智能体的协同作用。尽管有些综述涉及这种整合，但它们往往侧重于规划[188]、学习[7, 26, 204]、模拟器[201]和应用[157, 201, 209]等组件，而没有对整体范式以及这些组件如何相互作用以提升智能进行系统分析。此外，一些综合性综述遗漏了最新进展，特别是2024年以来备受关注的视觉-语言-动作（VLA）[117]模型和端到端决策。综述[119]对VLA模型进行了详细介绍，但缺乏与分层范式的比较以及对学习方法的深入探讨。此外，由于该领域发展迅速，早期的综述[48, 220]无法涵盖最新进展。在本综述中，我们聚焦于大模型赋能的具身智能的决策和学习方面，对相关研究进行分析和分类，梳理最新进展，指出尚存的挑战和未来方向，为研究人员提供清晰的理论框架和实践指导。表1列出了本综述与相关综述的比较。

表1. 本综述与相关综述在研究范围上的比较

综述类型	相关综述	发表时间	大模型	决策制定		具身学习			世界模型
				分层	端到端	模仿学习	强化学习	其他
特定	[29, 104, 113, 151, 191, 225]	2024	√	×	×	×	×	×	×
	[210]	2024	×	×	×	√	×	√
	[26]	2024	√	×	×	×	√	×
	[7, 227]	2025	×	×	×	×	×	×
	[188]	2024	×	√	×	×	×	×
	[204]	2024	×	×	×	√	√	×
	[165]	2025	×	×	×	×	×	×
	[43, 122]	2024	×	×	×	×	×	×	√
综合	[119]	2024	√	√	√	√	√	×	×
	[190]	2024	×	√	√	√	√	√	×
	[95]	2024	×	√	√	√	√	√	×
	[117]	2024	√	√	√	×	×	×	×
本综述			√	√	√	√	√	√	√

本综述的主要贡献总结如下：

• 从具身智能的角度聚焦大模型的赋能作用。对于分层决策，具身智能涉及高层规划、低层执行和反馈增强，因此我们根据这一层次对相关工作进行回顾和分类。对于端到端决策，具身智能依赖于VLA模型，因此我们回顾VLA模型及其增强方法。由于主要的具身学习方法是模仿学习（IL）和强化学习（RL），我们回顾了大模型如何在模仿学习中赋能策略网络构建，以及在强化学习中如何赋能奖励函数设计和策略网络构建。

• 全面综述具身决策和具身学习。在本综述中，我们全面回顾了大模型赋能的具身智能的决策和学习。在决策方面，我们回顾了大模型赋能的分层和端到端两种范式，并对它们进行了详细比较。在具身学习方面，我们不仅回顾了模仿学习和强化学习，还包括迁移学习和元学习。此外，我们回顾了世界模型及其如何促进决策和学习。

• 双分析方法以获得深入见解。我们采用整合了横向和纵向视角的双分析方法。横向分析回顾和比较了不同的方法，如不同的大模型、分层与端到端决策、模仿学习与强化学习以及不同的具身学习策略。纵向分析追溯核心模型或方法的演变，详细阐述它们的起源、后续进展和开放挑战。这种双方法能够同时实现对具身智能主流方法的宏观概述和深入见解。

本综述的组织结构如图1所示。第2节介绍具身智能的概念，概述大模型，并讨论大模型的一般能力增强。然后阐述大模型与具身智能的协同作用，为后续章节奠定基础。第3节深入探讨分层决策范式，详细说明大模型如何赋能动态高层规划、低层执行和通过反馈进行的迭代优化。第4节聚焦端到端决策。首先介绍VLA模型并对其进行分解，然后探讨在感知、动作生成和部署效率方面的最新增强方法。本节最后对分层和端到端决策进行全面比较。第5节介绍具身学习方法，特别是大模型增强的模仿学习和强化学习。第6节介绍世界模型，并讨论其在具身智能的决策和具身学习中的作用。第7节讨论开放挑战并指出未来前景。第8节总结本综述。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

2.预备知识

大模型[29, 151, 225]近年来展现出令人印象深刻的能力并获得了极大的普及。研究人员开始利用这些模型来构建AI智能体[4, 85, 137, 234]。在本节中，我们提供关于具身智能和大模型的预备知识。我们首先介绍具身智能的基本概念和整体流程。随后，我们介绍主流的大模型以及增强其一般能力的技术。最后，我们讨论大模型在具身智能系统中的应用。

2.1 具身智能

具身智能系统通常包括两个主要组件：物理实体和智能体[209]。物理实体，如类人机器人[124]、四足机器人[13]和智能车辆[160]，执行动作并接收反馈，作为物理世界和数字世界之间的接口。智能体构成认知核心，实现自主决策和学习。为了执行具身任务，具身智能系统从语言指令中解读人类意图，主动探索周围环境，从环境中感知多模态元素，并为完成任务执行动作。这一过程模仿人类的学习和问题解决范式。如图2（a）所示，人类从各种资源中学习技能，例如书籍、教学材料和在线内容。遇到不熟悉的场景时，他们评估环境，规划必要的行动，在脑海中模拟策略，并根据结果和外部反馈调整自己。具身智能体模仿这种类人的学习和问题解决范式，如图2（b）所示。通过模仿学习，智能体从人类演示或视频数据中获取技能。面对复杂任务或新环境时，它们分析周围环境，根据目标分解任务，自主制定执行策略，并通过模拟器或世界模型完善计划。执行后，强化学习通过整合外部反馈优化策略和动作，提高整体性能。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

具身智能的核心是使智能体能够在开放动态环境中自主决策和学习新知识[227]。自主决策可以通过两种方法实现：（1）分层范式[4]，将感知、规划和执行分离到不同的模块中；（2）端到端范式[234]，将这些功能集成到一个统一的框架中以实现无缝操作。具身学习使智能体能够通过长期的环境交互自主完善其行为策略和认知模型，实现持续改进。它可以通过模仿学习[20]从演示中获取技能，以及通过强化学习[11]在任务执行过程中通过迭代改进来优化技能。此外，世界模型[233]通过模拟真实世界的推理空间，为智能体提供尝试和积累经验的机会，也发挥着关键作用。这些组件协同工作，增强具身智能体的能力，向AGI迈进。

2.2 大模型

大模型，包括大型语言模型（LLM）、大型视觉模型（LVM）、大型视觉语言模型（LVLM）、多模态大模型（MLM）和视觉-语言-动作（VLA）模型，在架构、数据规模和任务复杂性方面取得了显著突破，展现出强大的感知、推理和交互能力。图3显示了主要大模型的时间线和对它们的一般能力增强（GCE）。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

2.2.1 大型语言模型

2018年，谷歌发布了BERT[42]，这是一种基于双向Transformer的模型，通过自监督任务进行预训练，显著提高了自然语言任务的性能。随后，OpenAI发布了GPT[149]，这是一种基于Transformer架构的生成模型，它在大规模无监督语料库上使用自回归训练来生成连贯的文本，标志着生成模型的突破。GPT-2[150]进一步扩大了模型规模和训练数据，增强了文本的连贯性和自然性。2020年，GPT-3[54]以其庞大的模型容量和多样化的训练数据树立了里程碑，在文本生成、问答和翻译方面表现出色。它首次展示了零样本和少样本学习能力，为未来的研究铺平了道路。后来，在代码数据集上预训练的Codex[32]在代码生成和理解方面取得了进展。ChatGPT[1]（基于GPT-3.5）能够与用户进行自然流畅的交互，同时支持广泛的知识领域。谷歌的PaLM[8, 39]通过大规模训练和优化计算，在语言理解、生成和推理方面表现出色。基于GPT-3[149]构建的InstructGPT[138]利用人类反馈的强化学习（RLHF）来对齐人类偏好。Meta的Vicuna[38]是一种开源对话模型，以较低的计算成本提供高质量的交互，非常适合资源受限的系统。Meta的Llama系列[182, 183]（7B、13B、30B、65B参数）为开源研究和开发做出了重大贡献。

2.2.2 大型视觉模型

LVM[96]用于处理视觉信息。视觉Transformer（ViT）[45]将Transformer架构适配到计算机视觉中，将图像分成固定大小的补丁，并使用自注意力捕捉全局依赖关系。基于此，Facebook AI发布了DINO[27]和DINOv2[136]，利用ViT进行自监督学习。DINO采用带有学生-教师网络的自蒸馏方法生成高质量的图像表示，通过自注意力和对比学习在没有标记数据的情况下捕捉语义结构。DINOv2通过改进的对比学习和更大的训练集增强了DINO，提高了表示质量。掩码自编码器（MAE）[78]利用自监督学习来重建被掩码的视觉输入，能够在大量未标记图像数据集上进行预训练。分割一切模型（SAM）[97, 156]在1100万张图像上进行预训练，支持多种分割任务，包括语义分割、实例分割和目标分割，通过基于用户反馈的微调具有很强的适应性。

2.2.3 大型视觉语言模型

LVLM[107]整合了预训练的视觉编码器和视觉-语言融合模块，允许处理视觉输入并通过语言提示响应用于视觉相关查询。OpenAI开发的CLIP[148]通过对比学习[35]在大规模图像-文本对上训练图像和文本编码器，对齐成对样本特征，同时最小化非成对样本特征，以创建与文本语义匹配的视觉表示。BLIP[108]采用双向自监督学习来融合视觉和语言数据，使用“引导”策略提高预训练效率，并改善视觉问答和图像 captioning 的性能。BLIP-2[107]进一步引入了QFormer结构，从冻结的图像编码器中提取视觉特征，并通过多模态预训练将其与语言指令对齐，以实现高效的跨模态融合。Flamingo[6]在少样本学习方面表现出色，用最少的样本处理多模态数据，支持数据稀缺场景下的跨模态推理。GPT-4V[223]将传统GPT扩展到处理联合图像-文本输入，生成图像描述并回答视觉问题，具有强大的多模态推理能力。DeepSeek-V3[115]通过采用动态稀疏激活架构进一步扩展了多模态推理的边界。它引入了一种混合路由机制，将特定任务专家与动态参数分配相结合，在跨模态融合任务中实现了高计算效率。

2.2.4 多模态大模型

MLM可以处理多种模态，包括文本、视觉、音频等。根据输入-输出范式，MLM可分为多模态输入-文本输出模型和多模态输入-多模态输出模型。

多模态输入-文本输出模型整合多种数据模态以实现全面的内容理解。例如，Video-Chat[109]通过会话建模增强视频分析，在动态视觉内容理解方面表现出色。基于Llama架构的VideoLLaMA[218]整合了视觉和音频输入，实现强大的视频内容分析。谷歌的Gemini[179]专为多模态设计，高效处理文本、图像和音频，用于图像描述和多模态问答。PaLM-E[46]将多模态输入转换为统一向量，并将其输入到PaLM模型进行端到端训练，实现强大的多模态理解。

多模态输入-多模态输出模型通过学习复杂的数据分布生成多种数据模态，如文本、图像和视频。例如，DALL·E[155]通过向量量化变分自编码器（VQ-VAE）和12亿参数的Transformer扩展了GPT-3，生成与提示对齐的创意图像，支持零样本任务。DALL·E2[154]通过将CLIP整合到DALL·E中对其进行增强，采用两阶段过程：首先生成低分辨率图像，然后进行超分辨率增强，极大地提高了图像质量和多样性。DALL·E3[16]通过增强文本编码器和训练数据质量进一步细化了图像-提示对齐。2024年，OpenAI发布了Sora[22]，这是一种视频生成模型，可以根据文本提示创建长达60秒的高质量连贯视频。Sora利用编码网络将输入转换为离散令牌，利用大规模扩散模型优化序列，并将去噪令牌投影回视频空间。

2.2.5 视觉-语言-动作模型

VLA模型最近受到了极大关注。它们的核心目标是将多模态输入直接映射到动作输出，而不是分层决策的中间步骤，从而提高机器人的感知-动作整合能力。VLA的概念最初由RT-2[234]提出，它利用预训练的视觉-语言模型将动作空间离散化为动作令牌，并通过互联网数据和机器人数据的联合微调实现泛化。然而，其离散动作设计和闭源性质限制了其灵活性和进一步研究。为了克服这些限制，出现了基于连续动作生成的VLA模型[111]和开源VLA模型[93]。最近关于VLA模型的研究进一步解决了这些挑战。BYO-VLA[74]、3D-VLA[226]、PointVLA[105]处理视觉输入处理问题。Octo[180]和Diffusion-VLA[196]解决动作生成准确性问题。TinyVLA[198]和π₀[18]提高了计算效率。

2.3 大模型的一般能力增强

大模型在推理能力、幻觉、计算成本和任务特异性方面仍然存在局限性。研究人员提出了一系列技术来增强它们的一般能力，如图4所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

上下文学习（ICL）[23]使大模型能够通过精心设计的提示实现零样本泛化，使它们能够在不进行额外训练和微调的情况下处理新任务。利用输入提示中的上下文，大模型可以理解任务要求并生成相关输出，使其成为从自然语言处理到特定任务问题解决等应用的通用工具。最近的进展集中在优化提示技术，如自动提示生成和动态示例选择，以增强ICL在不同领域的鲁棒性。

思维X（XoT）是一系列推理框架，旨在提高大模型解决数学、逻辑和开放式问题的能力。思维链（CoT）[195]将中间推理步骤纳入提示，引导大模型将复杂问题分解为可管理的部分。思维树（ToT）[213]通过以树状结构探索多条推理路径扩展了CoT，允许大模型评估替代解决方案并在必要时回溯。思维图（GoT）[15]通过采用图结构进一步推进了ToT，其中节点表示中间状态，边捕获关系和依赖关系，实现灵活的非线性推理。

检索增强生成（RAG）[103]从外部知识库（如数据库和网络源）检索相关信息，并将其提供给大模型以获得准确的响应。RAG缓解了大模型知识过时或不完整的问题，确保能够访问最新的和特定领域的信息。最近的进展包括混合检索机制，结合密集和稀疏检索方法以平衡精度和效率，以及微调策略以有效地使检索内容与生成输出对齐。

推理与行动（ReAct）[214]将推理与动作执行相结合，能够在执行任务期间产生明确的推理轨迹。通过要求大模型在行动前阐明其思维过程，ReAct提高了决策的透明度，并改善了在动态交互环境中的性能。

人类反馈的强化学习（RLHF）[138]将人类偏好整合到大模型的训练中，使大模型与人类价值观和意图对齐。使用人类反馈作为奖励信号，RLHF提高了模型在动态、交互环境中生成有帮助、无害和诚实输出的能力。通过促使模型生成多个响应，RLHF允许人类根据质量和安全性对它们进行排名或评分，并使用此反馈来改进模型未来的生成，确保连贯性和伦理考虑。

模型上下文协议（MCP）[81]是Anthropic引入的一种开源标准，为大模型提供了与外部数据源、工具和服务交互的标准化接口。MCP增强了大模型的互操作性和适应性，实现了与各种外部系统的无缝集成。MCP的最新发展集中在扩展其与多模态输入的兼容性，并优化其在实时应用中的性能。

2.4 具身大模型

大模型通过增强智能体的能力来赋能具身智能。通过无缝整合多种模态，包括文本、视觉、音频和触觉，具身大模型（ELM），也称为具身多模态大模型（EMLM），可以赋能智能体构建能够在复杂环境中感知、推理和行动的复杂系统，在自主决策和具身学习中发挥重要作用。

不同的大模型为具身智能体赋予不同的能力。LLM通常作为认知支柱[4, 85, 116]，处理自然语言输入，把握上下文细微差别，并生成可操作的响应。LVM通常用于感知任务或在任务执行期间作为可调用的API[172, 192]，利用预训练的视觉编码器预测目标类别、姿态和几何形状。LVLM和MLM可以通过将LLM与多种模态整合[83, 171, 211]进一步增强智能体的能力，使智能体能够理解跨文本、视觉和音频的人类指令，生成与上下文相关的响应或动作。复杂导航和操作任务的最新进展凸显了MLM的优势[201, 209]。与之前分别处理功能的模型不同，VLA模型学习从视觉和语言输入到可执行动作的端到端映射[18, 94, 234]。这种精简的管道使智能体能够解释复杂指令，感知动态环境，并执行精确的物理运动，从而产生更强大和通用的具身智能系统。除了增强规划智能外，研究人员越来越多地探索它们的生成能力，以推进具身学习[36, 120, 204]并协助构建世界模型[47, 146, 212]，进一步支持通往AGI的道路。

3.分层自主决策

智能体的自主决策旨在将环境感知和任务理解转化为可执行的决策和物理动作。传统的决策采用分层范式，包括感知与交互、高层规划、低层执行以及反馈与增强。感知与交互层依赖于视觉模型，高层规划层依赖于预定义的逻辑规则[55]，低层执行层依赖于经典控制算法[56]。这些方法在结构化环境中表现出色，但在非结构化或动态环境中挣扎，因为整体优化有限且高层决策能力不足。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

大模型凭借其强大的学习、推理和泛化能力，在复杂任务处理方面显示出潜力。通过将大模型的推理能力与物理实体的执行能力相结合，为自主决策提供了新的范式。如图5所示，环境感知首先解释智能体的周围环境，LLM赋能的高层规划随后结合感知信息和任务指令将复杂任务分解为子任务，LLM赋能的低层执行然后将子任务转换为精确的物理动作，最后LLM赋能的反馈增强引入闭环反馈以增强智能。

3.1 高层规划

高层规划根据任务指令和感知信息生成合理的计划。传统的高层规划依赖于基于规则的方法[59, 75, 126]。给定以规划域定义语言（PDDL）指定的初始状态和目标，启发式搜索规划器验证动作前提条件的可行性，并采用搜索树选择最优动作序列，从而生成高效且经济的计划[90]。尽管在结构化环境中有效，但基于规则的方法在非结构化或动态场景中适应性不足。大模型利用其零样本和少样本泛化能力，在应对这些挑战方面取得了突破。根据规划形式，LLM赋能的高层规划可分为结构化语言规划、自然语言规划和编程语言规划，如图6所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

3.1.1 基于LLM的结构化语言规划

LLM可以通过两种关键策略增强结构化语言规划，如图6（a）所示。（1）第一种策略将LLM用作规划器，利用其零/少样本泛化能力生成计划。然而，Valmeekam等人[185]证明，由于严格的PDDL语法和语义，LLM经常生成不可行的计划，导致逻辑错误。为了缓解这个问题，LLV[9]引入了外部验证器、PDDL解析器或环境模拟器，通过错误反馈检查并迭代改进LLM生成的计划。FSP-LLM[175]优化提示工程，使计划与逻辑约束对齐，确保任务的可行性。（2）第二种策略利用LLM自动生成PDDL，减少领域建模中的人工工作。在LLM+P[116]中，LLM创建PDDL域文件和问题描述，然后由传统规划器解决，结合了语言理解和符号推理。PDDL-WM[64]使用LLM迭代构建和完善PDDL域模型，通过解析器和用户反馈进行验证，确保正确性和可执行性。通过将LLM用作直接规划器或PDDL生成器，这些策略提高了自动化程度，减少了用户参与，从而显著提高了规划效率、适应性和可扩展性。

3.1.2 基于LLM的自然语言规划

与结构化语言相比，自然语言具有更大的表达灵活性，能够充分利用LLM将复杂计划分解为子计划[110, 167]，如图6（b）所示。然而，自然语言规划通常会产生不可行的计划，因为其输出往往基于经验而非实际环境。例如，当接到“打扫房间”的指令时，LLM可能会建议“取回吸尘器”，而不验证吸尘器的可用性。Zero-shot[85]探索了使用LLM将高层任务分解为一系列可执行的语言规划步骤的可行性。他们的实验表明，LLM可以基于常识推理生成初步计划，但缺乏对物理环境和动作可行性的约束。

为了解决这个问题，SayCAN[4]将LLM与强化学习相结合，将LLM生成的计划与预定义的技能库和价值函数相结合，以评估动作可行性。通过用预期累积奖励对动作进行评分，SayCAN过滤掉不切实际的步骤（例如，“跳上桌子抓取杯子”），而选择更安全的高价值动作（例如，“走到桌子前伸出手”）。Text2Motion[114]通过纳入几何可行性进一步增强涉及空间交互的任务规划。它使用LLM提出候选动作序列，然后由检查器评估其物理可行性，以避免“将大盒子堆叠在小球上”等动作。然而，这两种方法都依赖于固定的技能集，缺乏对开放式任务的适应性。Grounded Decoding[87]通过引入灵活的解码策略解决了这一限制。它将LLM输出与实时接地模型动态整合，该模型根据当前环境状态和智能体能力评估动作可行性，引导LLM生成符合上下文的可行计划。

3.1.3 基于LLM的编程语言规划

编程语言规划将自然语言指令转换为可执行程序，利用代码的精确性来定义空间关系、函数调用和控制API，用于具身任务中的动态高层规划，如图6（c）所示。CaP[112]将任务规划转换为代码生成，生成具有递归定义函数的Python风格程序，以创建动态函数库。例如，在机器人导航中，CaP首先定义“移动”函数，然后根据任务要求将其扩展为“避障移动”或“接近目标”。这种自我扩展的库增强了对新任务的适应性，无需预定义模板。然而，CaP对感知API的依赖和无约束的代码生成限制了其处理复杂指令的能力。为了克服这些限制，Instruct2Act[84]通过利用多模态基础模型来统一感知、规划和控制，提供了更集成的解决方案。它使用视觉-语言模型进行准确的目标识别和空间关系理解，提供精确的环境感知。然后将感知数据输入到LLM，LLM从预定义的机器人技能库中生成基于代码的动作序列。这种方法显著提高了规划准确性，并使智能体能够有效适应新环境，特别是在具有显著视觉组件的任务中。ProgPrompt[176]采用带有环境操作、目标描述和示例程序的结构化提示，引导LLM生成定制的、基于代码的计划。通过纳入预定义约束，ProgPrompt最大限度地减少了无效代码生成，并增强了跨环境适应性。

3.2 低层执行

在高层任务规划之后，使用预定义的技能列表执行低层动作[85]。技能列表表示具身智能体执行特定任务所需的一系列基本能力或动作模块。它们充当任务规划和物理执行之间的桥梁。例如，与感知相关的技能包括目标识别和障碍检测，而与运动相关的技能包括目标抓取和移动。低层技能的实现涉及控制理论、机器学习和机器人工程。这些方法从传统控制算法演变为学习驱动的控制，再到模块化控制，如图7所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

3.2.1 传统控制算法

基础技能通常使用传统控制算法设计，这些算法主要利用具有清晰数学推导和物理原理的经典基于模型的技术。比例-积分-微分（PID）控制[81]调整参数以最小化机械臂关节控制中的误差。状态反馈控制[178]，通常与线性二次调节器（LQR）[125]配对，使用系统状态数据优化性能。模型预测控制（MPC）[2]通过滚动优化预测状态并生成控制序列，非常适合无人机路径跟踪等任务。传统控制算法提供数学可解释性、低计算复杂度和实时性能，实现可靠的任务执行。然而，面对动态环境时，传统控制算法缺乏适应性，难以处理高维不确定的系统动态。它们需要与数据驱动技术（如深度学习和强化学习）相结合，以增强泛化能力。例如，当四足机器人在不平坦地形上导航时，传统PID控制与学习算法协作以动态调整其步态。

3.2.2 基于LLM的学习驱动控制

机器人学习处于机器学习和机器人技术的交界处。它使智能体能够从大量数据（包括人类演示、模拟和环境交互）中开发控制策略和低层技能。模仿学习和强化学习是实现这一目的的两种重要学习方法。模仿学习从专家演示中训练策略，能够快速开发策略，减少探索时间。Embodied-GPT[131]利用7B语言模型进行高层规划，并通过模仿学习将计划转换为低层策略。强化学习通过迭代试验和环境奖励优化策略，适用于高维动态环境。Hi-Core[140]采用两层框架，其中LLM设置高层策略和子目标，而强化学习在低层生成特定动作。这些由LLM赋能的学习驱动控制方法具有很强的适应性和泛化能力。然而，它们的训练通常需要大量数据和计算资源，并且策略的收敛性和稳定性难以保证。

3.2.3 基于LLM和预训练模型的模块化控制

模块化控制将LLM与预训练策略模型（如用于视觉识别的CLIP[148]和用于分割的SAM[96]）相结合。通过为LLM配备这些工具的描述，可以在任务执行期间动态调用它们。DEPS[192]结合多个不同的模块，根据任务要求和预训练模型的自然语言描述完成检测和动作。PaLM-E[46]将LLM与用于分割和识别的视觉模块合并。CLIPort[172]利用CLIP进行开放词汇检测。[112]利用LLM生成代码，创建用于导航和操作的可调用函数库。这种模块化方法通过利用共享的预训练模型，确保了在各种任务中的可扩展性和可重用性。

然而，挑战依然存在。首先，调用外部策略模型可能会引入额外的计算和通信延迟，特别是在实时任务中（例如，自主驾驶[216]），这种延迟可能会显著影响响应效率。其次，智能体的整体性能高度依赖于预训练策略模型的质量。如果策略模型存在缺陷（例如，泛化能力不足或训练数据偏差），即使LLM具有强大的规划能力，执行结果可能仍然不令人满意。因此，优化模块之间的通信效率、提高策略模型的鲁棒性以及设计更智能的调用决策机制非常重要。

3.3 反馈与增强

分层决策架构通过任务描述和示例提示指导任务规划。为了确保任务规划的质量，应引入闭环反馈机制。反馈可能来自大模型本身、人类和外部环境，如图8所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

3.3.1 大模型的自我反思

大模型可以充当任务规划器、评估器和优化器，从而在没有外部干预的情况下迭代完善决策过程。智能体获取动作反馈，自主检测和分析失败的执行，并从先前的任务中不断学习。通过这种自我反思和优化机制，大模型可以生成稳健的策略，在长序列规划、多模态任务和实时场景中具有优势。自我反思可以通过两种方式实现，如图8（a）所示。

（1）第一种方法基于检测到的执行失败或前提条件错误，通过重新提示（Re-Prompting）[153]触发计划再生。重新提示整合错误上下文（例如，开门前未解锁）作为反馈，动态调整提示，从而纠正LLM生成的计划。DEPS[153]采用“描述、解释、计划、选择”框架，其中LLM描述执行过程，解释失败原因，并通过重新提示纠正计划缺陷，增强交互规划。

（2）第二种方法采用内省机制，使LLM能够独立评估和完善其输出。Self-Refine[121]使用单个LLM进行规划和优化，通过多个自我反馈循环迭代提高计划的合理性。Reflexion[170]通过纳入存储评估结果的长期记忆扩展了它，结合多种反馈机制增强计划的可行性。ISR-LLM[231]在基于PDDL的规划中应用迭代自我优化，生成初始计划，进行合理性检查，并通过自我反馈完善结果。Voyager[189]专为编程语言规划设计，通过从执行失败中提取反馈构建动态代码技能库，使智能体能够适应复杂任务。

3.3.2 人类反馈

人类反馈通过与人类建立交互式闭环机制来提高规划准确性和效率，如图8（b）所示。这种方法使智能体能够根据人类反馈动态调整行为。KNOWNO[161]引入了不确定性测量框架，允许LLM识别知识差距，并在高风险或不确定场景中寻求人类帮助。EmbodiedGPT[132]采用规划-执行-反馈循环，当低层控制失败时，智能体请求人类输入。这种人类反馈与强化学习和自监督优化相结合，使智能体能够迭代完善其规划策略，确保更好地适应动态环境条件。YAY Robot[168]允许用户通过命令暂停机器人并提供指导，便于基于语言的实时纠正。反馈被记录下来用于策略微调并进行定期查询，实现实时和长期改进。IRAP[80]允许与人类进行交互式问答以获取特定任务知识，实现精确的机器人指令。

3.3.3 环境反馈

环境反馈通过与环境的动态交互增强基于LLM的规划，如图8（c）所示。内心独白（Inner Monologue）[88]将多模态输入转换为语言描述以进行“内心独白”推理，允许LLM根据环境反馈调整计划。TaPA[203]整合开放词汇目标检测，并为导航和操作定制计划。DoReMi[65]检测计划结果与实际结果之间的差异，并利用多模态反馈动态调整任务。在多智能体设置中，RoCo[123]利用环境反馈和智能体间通信实时纠正机械臂路径规划。

基于LLM的规划通常需要将反馈转换为自然语言。VLM通过整合视觉输入和语言推理简化了这一点，避免了反馈转换。ViLaIn[171]将LLM与VLM整合，从语言指令和场景观察生成机器可读的PDDL，以高精度驱动符号规划器。ViLA[83]和Octopus[211]利用GPT4-V MLM生成计划，整合感知数据以实现强大的零样本推理，从而实现机器人视觉语言规划。Voxposer[86]进一步利用MLM提取空间几何信息，从机器人观察中生成3D坐标和约束图以填充代码参数，从而提高规划中的空间准确性。

4.端到端自主决策

分层范式依赖于分离的任务规划、动作执行和反馈模块，因此存在误差累积问题，并且难以在各种任务中泛化。此外，从大模型中获得的高层语义知识难以直接应用于机器人动作执行，导致整合差距。为了缓解这些挑战，端到端自主决策最近受到了极大关注，它将多模态输入（即视觉观察和语言指令）直接映射到动作。它通常由VLA实现，如图9所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

4.1 视觉-语言-动作模型

VLA模型通过将感知、语言理解、规划、动作执行和反馈优化整合到一个统一框架中，在具身智能中取得了突破。通过利用大模型丰富的先验知识，VLA模型可以在动态、开放的环境中实现精确且适应性强的任务执行。典型的VLA模型包括三个关键组件：令牌化与表示、多模态信息融合和动作去令牌化，如图10所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

（1）令牌化与表示。VLA模型使用四种令牌类型：视觉、语言、状态和动作，对多模态输入进行编码，以生成上下文感知的动作。视觉令牌和语言令牌将环境场景和指令编码为嵌入，构成任务和上下文的基础。状态令牌捕获智能体的物理配置，包括关节位置、力-扭矩、 gripper 状态、末端执行器姿态和目标位置。动作令牌基于先前的令牌自回归生成，表示低层控制信号（例如，关节角度、扭矩、轮速）或高层运动原语（例如，“移动到抓取姿态”、“旋转手腕”），使VLA模型能够作为语言驱动的策略生成器。

（2）多模态信息融合。视觉令牌、语言令牌和状态令牌通过跨模态注意力机制融合为统一的嵌入以进行决策，通常在Transformer架构中实现。这种机制动态权衡每种模态的贡献，使VLA模型能够基于任务上下文联合推理目标语义、空间布局和物理约束。

（3）动作去令牌化。融合的嵌入随后传递到自回归解码器（通常在Transformer架构中实现），以生成一系列对应于低层控制信号或高层运动原语的动作令牌。动作生成可以是离散的或连续的。在离散动作生成中，模型从预定义的动作集中选择，例如特定的运动原语或离散化的控制信号，这些动作被映射到可执行命令。在连续动作生成中，模型输出细粒度的控制信号，通常使用最终的MLP层从连续分布中采样，实现精确的操作或导航。这些动作令牌通过映射到可执行的控制命令进行去令牌化，然后传递到执行循环。该循环反馈更新的状态信息，使VLA模型能够实时适应扰动、目标移动或遮挡。

机器人Transformer 2（RT-2）[234]是著名的VLA模型。它利用视觉Transformer（ViT）[45]进行视觉处理，并利用PaLM整合视觉、语言和机器人状态信息。具体而言，RT-2将动作空间离散化为八个维度（包括6自由度末端执行器位移、gripper 状态和终止命令）。除了终止命令外，每个维度分为256个离散间隔，并作为动作令牌嵌入到VLM词汇表中。在训练期间，RT-2采用两阶段策略：首先使用互联网规模的视觉-语言数据进行预训练以增强语义泛化；然后进行微调，将输入（即机器人相机图像和文本任务描述）映射到输出（即动作词令牌序列，例如，“1 128 91 241 5 101 127 255”）。训练后的VLA模型可以基于视觉-语言输入自回归生成动作词，并通过预定义的映射表将其解码为特定的动作序列。通过将动作建模为“语言”，RT-2利用大模型的能力，用丰富的语义知识增强低层动作命令。

4.2 VLA的增强方法

尽管VLA端到端决策架构功能强大，但它存在显著的局限性，限制了其在复杂具身任务中的性能。首先，实时闭环机制使VLA模型对视觉和语言输入的扰动高度敏感，其中视觉噪声（例如，遮挡或杂乱的背景）会破坏动作输出，影响任务可靠性。此外，对2D感知的依赖限制了模型解释复杂3D空间关系的能力。其次，动作生成过程通常依赖于输出层的简单策略网络，难以满足高精度和动态演变任务的要求，导致轨迹次优。第三，训练VLA模型需要大量计算资源，导致部署成本高和可扩展性挑战。为了解决这些问题并提高VLA在复杂场景中的适用性，研究人员提出了一些增强方法。我们将它们分为：感知能力增强（解决第一个问题）、轨迹动作优化（解决第二个问题）和训练成本降低（解决第三个问题），如图11所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

4.2.1 感知能力增强

为了提高感知能力，BYO-VLA[74]通过实施运行时观察干预机制优化令牌化和表示组件，该机制利用自动图像预处理过滤掉来自遮挡目标和杂乱背景的视觉噪声。TraceVLA[229]专注于多模态信息融合组件，将视觉轨迹提示引入跨模态注意力机制。通过将与轨迹相关的数据与视觉、语言和状态令牌相结合，TraceVLA增强了时空感知，实现精确的动作轨迹预测。BYO-VLA提高了输入质量，而TraceVLA在融合过程中改进了动态信息的整合。对于3D感知，3D-VLA[226]将3D大模型与基于扩散的世界模型相结合，处理点云和语言指令。它生成语义场景表示并预测未来点云序列，提高对3D目标关系的理解，从而在复杂3D环境中超越2D VLA模型。SpatialVLA[147]进一步强调了机器人分拣任务中的空间理解问题。它提出了Ego3D位置编码，将3D信息直接注入输入观察中，并采用自适应动作方案提高机器人在不同环境中的适应性。

4.2.2 轨迹动作优化

离散动作空间限制了未定义或高精度动作的表达。扩散增强方法通过扩散模型对复杂机器人行为进行建模，可以提供更平滑和可控的动作。Octo[180]结合Transformer和扩散模型生成机器人动作。它通过Transformer处理多模态输入，提取视觉-语言特征，并使用条件扩散解码器基于这些特征迭代优化动作序列，以生成平滑精确的轨迹。通过模块化设计和高效微调，Octo仅用少量特定任务数据即可实现跨任务泛化。Diffusion-VLA[196]将语言模型与扩散策略解码器整合到一个统一框架中。它使用自回归语言模型解析语言指令并生成初步任务表示，这些表示被输入到扩散策略解码器中，通过渐进式去噪过程优化动作序列。Diffusion-VLA在整个框架中采用端到端训练，联合优化语言理解和动作生成。扩散过程在每个步骤纠正自回归输出中的不连续性，确保动作轨迹的平滑性和鲁棒性。与Octo相比，Diffusion-VLA计算成本更高，但更适合需要深层语义-动作融合的复杂任务。

4.2.3 训练成本降低

复杂任务中的VLA模型需要高计算成本，这在资源受限的具身平台上受到限制。为了降低训练成本，研究人员提出了优化方法，以提高推理速度、数据效率和实时性能，同时保持任务性能。π₀[18]利用流匹配来表示复杂的连续动作分布。与扩散模型中使用的多步采样相比，流匹配通过连续流场建模优化动作生成过程，从而减少计算开销并提高实时性能。与Diffusion-VLA[196]和Octo[180]相比，计算效率和控制精度的改进使π₀更适合资源受限的具身应用，特别是需要高精度连续控制的任务。此外，TinyVLA[234]通过设计轻量级多模态模型和扩散策略解码器，在推理速度和数据效率方面取得了显著提高。OpenVLA-OFT[92]使用并行解码代替传统的自回归生成，在单次前向传递中生成完整的动作序列，而不是逐个生成，从而显著减少推理时间。

4.3 主流VLA模型

最近出现了大量VLA模型，它们具有各种架构和能力。为了更好地理解和部署，我们在表2中根据架构、贡献和能力增强对它们进行了总结和比较。

表2. 主流VLA模型（P：感知，A：轨迹动作，C：训练成本）

模型	架构	贡献	增强
			P	A	C
RT-2 [234]（2023）	• 视觉编码器：ViT22B/ViT-4B • 语言编码器：PaLIX/PaLM-E • 动作解码器：符号微调	开创性的大规模VLA，在基于网络的VQA和机器人数据集上联合微调，解锁高级新兴功能。	×	√	√
Seer [63]（2023）	• 视觉编码器：视觉骨干网 • 语言编码器：基于Transformer • 动作解码器：自回归动作预测头	通过扩展预训练的文本到图像扩散模型，从语言指令有效预测未来视频帧。	√	×	√
Octo [180]（2024）	• 视觉编码器：CNN • 语言编码器：T5-base • 动作解码器：扩散Transformer	在大规模多机器人数据集（800k+轨迹）上训练的第一个通用策略。强大的开源基础模型。	×	√	×
Open-VLA [94]（2024）	• 视觉编码器：DINOv2 + SigLIP • 语言编码器：Prismatic-7B • 动作解码器：符号微调	RT-2的开源替代方案，具有卓越的参数效率和通过高效LoRA微调实现的强泛化能力。	×	×	√
Mobility-VLA [37]（2024）	• 视觉编码器：长上下文ViT + 目标图像编码器 • 语言编码器：基于T5的指令编码器 • 动作解码器：混合扩散 + 自回归集成	利用演示巡视视频作为环境先验，使用长上下文VLM和拓扑图基于复杂多模态指令进行导航。	√	√	×
Tiny-VLA [198]（2025）	• 视觉编码器：具有低延迟编码的FastViT • 语言编码器：紧凑语言编码器（128-d） • 动作解码器：扩散策略解码器（50M参数）	在速度和精度上超过OpenVLA；消除预训练需求；实现5倍更快的推理，适用于实时应用。	×	×	√

表2. 主流VLA模型（P：感知，A：轨迹动作，C：训练成本）（续）

模型	架构	贡献	增强
			P	A	C
Diffusion-VLA [196]（2024）	• 基于Transformer的视觉编码器用于上下文感知 • 语言编码器：具有下一个令牌预测的自回归推理模块 • 用于稳健动作序列生成的扩散策略头	利用基于扩散的动作建模进行精确控制；卓越的上下文感知和可靠的序列规划。	×	√	×
Point-VLA [105]（2025）	• 视觉编码器：CLIP + 3D点云 • 语言编码器：Llama-2 • 动作解码器：具有空间令牌融合的Transformer	在长期和空间推理任务中表现出色；通过保留预训练的2D知识避免重新训练	√	×	×
VLA-Cache [208]（2025）	• 视觉编码器：带有令牌记忆缓冲区的SigLIP • 语言编码器：Prismatic-7B • 动作解码器：具有动态令牌重用的Transformer	以接近零损失实现更快的推理；动态重用静态特征用于实时机器人技术	×	×	√
π₀ [18]（2024）	• 视觉编码器：PaliGemma VLM骨干网 • 语言编码器：PaliGemma（多模态） • 动作解码器：流匹配	采用流匹配生成平滑、高频（50Hz）动作轨迹用于实时控制。	×	√	√
π₀ Fast [143]（2025）	• 视觉编码器：PaliGemma VLM骨干网 • 语言编码器：PaliGemma（多模态） • 动作解码器：具有FAST的自回归Transformer	引入基于离散余弦变换（DCT）的高效动作令牌化方案，使自回归模型能够处理高频任务并显著加快训练速度。	×	√	√
Edge-VLA [25]（2025）	• 视觉编码器：SigLIP + DINOv2 • 语言编码器：Qwen2（0.5B参数） • 动作解码器：联合控制预测（非自回归）	为边缘设备量身定制的精简VLA，提供30–50Hz的推理速度，性能与OpenVLA相当，针对低功耗、实时部署进行了优化。	×	×	√

表2. 主流VLA模型（P：感知，A：轨迹动作，C：训练成本）（续）

模型	架构	贡献	增强
			P	A	C
OpenVLA-OFT [92]（2025）	• 视觉编码器：SigLIP + DINOv2（多视图） • 语言编码器：Llama-2 7B • 动作解码器：具有动作分块和L1回归的并行解码	一种优化的VLA微调方案，整合并行解码和连续动作表示，以提高推理速度和任务成功率。	×	√	√
Spatial-VLA [147]（2025）	• 视觉编码器：来自PaLiGemma2 4B的SigLIP • 语言编码器：PaLiGemma2 • 动作解码器：自适应动作网格和自回归Transformer	通过“Ego3D位置编码”注入3D信息，并使用“自适应动作网格”表示动作，增强空间智能。	√	√	×
MoLe-VLA [219]（2025）	• 视觉编码器：带有STAR路由器的多阶段ViT • 语言编码器：CogKD增强的Transformer • 动作解码器：具有动态路由的稀疏Transformer	一种受大脑启发的架构，使用动态层跳跃（Mixture-of-Layers）和知识蒸馏来提高效率。	×	×	√
DexGrasp-VLA [230]（2025）	• 视觉编码器：以目标为中心的空间ViT • 语言编码器：具有抓取序列推理的Transformer • 动作解码器：用于抓取姿态生成的扩散控制器	用于通用灵巧抓取的分层框架，使用VLM进行高层规划，使用扩散策略进行低层控制。	×	√	×
Dex-VLA [197]（2025）		一个大型插件式基于扩散的动作专家和一个具身课程学习策略，用于高效的跨机器人训练和适应。	×	√	×

4.4 分层与端到端决策

分层和端到端是实现具身智能自主决策的两种不同范式，每种范式都有独特的设计理念、实现策略、性能特征和应用领域。下面我们对它们进行比较，如表3所示，该表概述了在架构、性能、可解释性、泛化性等方面的关键差异。

分层架构将决策过程分解为多个模块，每个模块处理感知、规划、执行和反馈的特定方面。核心思想是将复杂任务分解为可管理的子任务，以增强可调试性、优化性和可维护性。分层架构在整合领域知识（例如，物理约束、规则）方面表现出色，为具身任务提供高可解释性和可靠性。但其局限性很明显。模块的分离可能由于协调不当导致次优解决方案，特别是在动态复杂环境中。手动任务分解可能阻碍对未见过的场景和任务的适应性。

端到端架构采用大规模神经网络（即VLA）直接将多模态输入映射到动作，无需模块化分解。VLA通常建立在大型多模态模型之上，并在广泛的数据集上训练，同时实现视觉感知、语言理解和动作生成。由于高度集成的架构，VLA最大限度地减少了模块间的误差累积，并通过端到端优化实现高效学习。通过在大规模多模态数据集上训练，VLA在非结构化环境中对复杂任务具有很强的泛化能力。然而，VLA的黑箱性质降低了可解释性，使得难以分析决策过程。VLA的性能严重依赖于训练数据的质量和多样性。端到端训练的计算成本也很高。

表3. 分层和端到端决策范式的比较

方面	分层	端到端
可解释性	高，具有清晰的模块化设计结构	低，由于神经网络的黑箱性质
泛化性	有限，由于依赖人工设计的模块	强，由大规模预训练驱动
对数据差距的敏感性	较低，模块间通信可能在复杂场景中引入延迟	较高，依赖训练数据的覆盖范围
处理开销	中等，具有独立的模块优化但存在协调开销	高，直接的感知到动作映射最大限度地减少了处理开销
训练成本	较低，各模块可独立训练	高，需要大量资源进行训练
应用	适用于工业自动化、无人机导航、自主驾驶	适用于家用机器人、虚拟助手、人机协作
优势	高可解释性、高可靠性、易于整合领域知识	无缝多模态整合、在复杂任务中高效、最小化误差累积
局限性	由于模块协调问题导致次优、在非结构化环境中适应性低	可解释性低、对训练数据依赖性高、计算成本高、在分布外场景中泛化性低

5.具身学习

具身学习旨在使智能体能够在与环境的交互过程中获取复杂技能并完善其能力[227]。通过不断学习和优化技能，智能体可以实现精确决策和实时适应。这种能力可以通过多种学习策略的协调来实现，如图12所示。模仿学习允许智能体快速获取初始策略，迁移学习[152]促进跨不同任务的知识迁移，元学习[51]使智能体能够学习如何学习，强化学习[11]通过与环境的持续交互优化策略。然而，这些学习方法在具身智能中仍然面临重大技术挑战。模仿学习难以捕捉复杂行为，而强化学习常常受到有效奖励函数设计复杂性的阻碍。近年来，Transformer和大模型的出现促使研究人员探索将大模型与学习方法相结合以克服这些限制。在本节中，我们首先描述具身学习的过程和常见学习方法，然后更详细地阐述模仿学习和强化学习，并研究大模型如何在具身智能中增强这些方法。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

5.1 具身学习方法

具身智能体应该能够在其整个生命周期中获取新知识和学习新任务，而不是依赖初始训练数据集[227]。这种能力对于现实世界的复杂性和可变性至关重要，因为新任务和挑战经常出现。具身学习可以建模为目标条件部分可观测马尔可夫决策过程，定义为8元组（S, A, G, T, R, Ω, O, γ），其中：

• S是环境状态的集合。每个状态编码多模态信息，如文本描述、图像或结构化数据。

• A是动作的集合。每个动作表示一个指令或命令，通常用自然语言表达。

• G是可能目标的集合。g ∈ G指定特定目标，例如，购买一台笔记本电脑。

• T(s' | s, a)是状态转移概率函数。对于每个状态-动作对（s, a），T(·)定义了下一个状态s' ∈ S的概率分布。

• R: S × A × G → R是目标条件奖励函数，评估在状态s中执行动作a对目标的推进程度。对于每个三元组（s, a, g），奖励可以是数值（例如，分数）或文本（例如，“做得好”），为目标提供交互式反馈。

• Ω是观察的集合，可能包括文本、视觉或多模态数据，表示智能体对状态的部分视图。

• O(o' | s', a)是观察概率函数，定义在通过动作a转移到状态s'后观察到o' ∈ Ω的概率。

• γ ∈ [0,1)是折扣因子，平衡即时奖励和长期奖励。它仅在奖励为数值时适用。

这个公式捕捉了现实世界场景的复杂性，其中智能体在部分可观测的随机动态下运行。在时间t，智能体接收观察o_t ∈ Ω和目标g ∈ G。它根据策略π(a_t | o_t, g)选择动作a_t ∈ A。执行动作后，环境状态转移到s_{t+1} ~ T(s' | s_t, a_t)，产生观察o_{t+1} ~ O(o' | s_{t+1}, a_t)和奖励R(s_{t+1}, a_t, g)。对于端到端决策，VLA模型直接编码策略π(a | o, g)，处理多模态观察o ∈ Ω并产生动作a ∈ A。对于分层决策，高层智能体通过LLM增强的策略π_high(g_sub | o, g)生成上下文感知的子目标g_sub，然后低层策略π_low(a | o, g_sub)将子目标映射到动作a ∈ A。低层策略π_low(a | o, g_sub)可以通过模仿学习或强化学习来学习。学习到的策略嵌入到模型的分层架构中，并在训练期间进行微调以处理特定任务，例如导航、操作、人机交互。

对于具身智能，模仿学习、强化学习、迁移学习和元学习在使智能体能够在复杂现实世界环境中行动方面都发挥着重要作用。每种学习方法都解决独特的挑战。模仿学习[204]允许智能体通过模仿专家或视频演示来学习有效策略，在机器人操作等有高质量数据可用的任务中非常高效。但其对多样化演示的依赖限制了对新场景的适应性。强化学习[139]通过在奖励函数指导下的试错交互在动态环境中表现出色。然而，设计适当的奖励函数是一个挑战，并且强化学习需要大量计算资源。迁移学习[152]通过在相关任务之间转移知识来增强学习效果，非常适合技能重用。然而，当任务差异显著时，存在负迁移的风险[181]。元学习[66]专注于学习如何学习，使智能体能够用最少的数据快速适应新任务。但它需要在各种任务上进行广泛的预训练。表4简要总结和比较了这些方法在具身智能方面的情况。

表4. 具身智能学习方法的比较

方法	优势	局限性	应用
模仿学习	• 通过模仿专家演示快速学习策略 • 对于有高质量数据的任务高效	• 依赖多样化、高质量的演示 • 在新任务或数据稀疏场景中适应性有限	• 机器人操作 • 结构化导航 • 有专家指导的人机交互
强化学习	• 通过试错在动态不确定环境中优化策略 • 在有明确奖励信号的任务中表现出色	• 需要大量样本和计算资源 • 对奖励函数和折扣因子敏感	• 自主导航 • 自适应人机交互 • 动态任务优化
迁移学习	• 通过在相关任务之间转移知识加速学习 • 增强在相关任务中的泛化性	• 当任务差异显著时存在负迁移风险 • 有效学习需要任务相似性	• 跨不同环境的导航 • 具有共享结构的操作 • 跨任务技能重用
元学习	• 用最少的数据快速适应新任务 • 适用于各种具身任务	• 需要广泛的预训练和大型数据集 • 建立通用元策略消耗资源大	• 在不同任务和环境中的导航、操作或交互中的快速适应

5.1.1 模仿学习

模仿学习是具身学习中的一种关键方法。它使智能体能够通过模仿专家演示来学习策略，允许快速获取面向目标任务的决策策略[204]。训练使用专家状态-动作对（s, a）的数据集进行监督。目标是学习策略π(a | s)，通过最小化专家动作的负对数似然来紧密复制专家的行为。因此，其目标函数可以定义为：

其中D是专家演示的集合。每个演示τ_i由长度为L的一系列状态-动作对（s_t, a_t）组成：

在连续动作空间中，策略π(·)通常建模为高斯分布，目标函数使用预测动作与专家动作之间的均方误差（MSE）来近似。模仿学习具有很高的样本效率，因为它避免了大量的试错，但它高度依赖演示数据的质量和覆盖范围，在未见过的场景中存在困难。将模仿学习与强化学习相结合的混合方法可以解决这一限制，通过模仿学习初始化策略，并通过强化学习在与环境的交互中完善策略，增强对未见过情况的鲁棒性。

5.1.2 强化学习

强化学习目前是具身学习中的主要方法。它使智能体能够通过与环境的试错交互来学习策略，使其非常适合动态和不确定的环境[139]。在每个时间步t，智能体观察状态s并根据其策略π(a | s)选择动作a。执行动作后，智能体从奖励函数R(s, a, g)接收奖励r，环境根据状态转移概率T(s' | s, a)转移到新状态s'，产生观察o' ~ O(o' | s', a)。强化学习的目标函数是最大化预期累积奖励：

其中γ ∈ [0,1)是平衡即时奖励和长期奖励的折扣因子。强化学习在优化复杂任务的策略方面表现出色，但需要大量探索，计算成本高。将模仿学习和强化学习相结合的混合方法可以改善这一问题，其中模仿学习提供初始策略以减少探索，强化学习通过与环境的交互完善策略。

5.1.3 迁移学习

在从头开始训练需要大量样本和时间的场景中，可以应用迁移学习来减轻工作量[152]。它允许智能体利用来自源任务的知识加速相关目标任务的学习。通过从源任务转移学习到的策略、特征或表示，智能体提高了在目标任务上的效率和泛化性。给定一个源任务，其状态-动作空间由状态s ∈ S、动作a ∈ A和策略π(a | s)定义，迁移学习使源策略π_s适应具有不同动态或目标的目标任务。目标是通过使用少量目标任务数据微调策略，最小化源策略π_s和目标策略π_t之间的差异。这个过程由目标任务的特定任务损失指导，并受Kullback-Leibler（KL）散度约束以实现策略对齐：

其中θ_t^*表示目标任务的最优策略参数，θ_s和θ_t分别是源策略和目标策略的参数，D_KL测量源策略π_s和目标策略π_t之间的差异，L_t是目标任务的特定任务损失，λ是平衡策略对齐和任务性能的正则化参数。这个过程确保转移的知识与目标任务的状态转移概率T(s' | s, a)和奖励函数R(s, a, g)对齐。在具身环境中，迁移学习使智能体能够在不同环境和目标之间重用学到的行为，减少训练时间。然而，源任务和目标任务之间的显著差异可能导致负迁移，即由于知识不匹配而导致性能下降。

5.1.4 元学习

元学习也可用于具身智能，使智能体能够学习如何学习[51, 66]，以便它们可以从少量样本中快速推断出新任务的最优策略。在每个时间步t，智能体接收观察o ∈ Ω和目标g，并根据适应于由状态转移概率T(s' | s, a)和奖励函数R(s, a, g)定义的任务特定动态的元策略选择动作a。目标是通过最小化特定任务数据的损失来优化跨任务的预期性能。在模型无关元学习（MAML）[52]的背景下，这是通过学习一组初始模型参数θ来实现的，这些参数可以通过最少的更新快速适应新任务。具体而言，对于一组任务T_i，MAML优化元目标如下：

其中θ^*表示最优元策略参数，L_{T_i}是特定任务损失，f_θ是由θ参数化的模型，θ_i是学习率为α的梯度更新后的特定任务参数，外部优化在适应后最小化跨任务的预期损失。元学习可以使智能体通过使用少量演示或交互微调预训练模型来快速适应新任务。元策略可以嵌入到大模型中，并在训练期间进行完善以处理各种任务。尽管有这些优势，元学习需要在各种任务上进行大量的预训练和大量样本，在建立通用学习策略方面面临挑战，特别是当任务在状态空间或动态方面差异显著时。

5.2 大模型赋能的模仿学习

模仿学习的主要目标是使智能体通过模仿演示者的动作达到专家级性能。模仿学习可以通过不同的方法实现，包括行为克隆[53]、逆强化学习[135]、生成对抗模仿学习[79]和分层模仿学习[12]，每种方法都有助于策略网络的构建。在这些方法中，行为克隆是最重要的一种，它将模仿学习表述为有监督回归任务。给定观察o ∈ Ω和目标g ∈ G，策略网络π预测预期动作a ∈ A。

策略网络π需要准确地将观察o和目标g映射到动作a，以确保高模仿保真度，即使在复杂、动态、部分可观测的环境中也是如此。除了复制之外，模仿学习还旨在赋予智能体对未见过的状态、目标或环境的泛化能力。这种泛化能力对于现实世界应用至关重要，例如机器人操作、自主导航和人机交互，其中环境动态和任务要求通常偏离训练场景。此外，模仿学习旨在确保对分布偏移的鲁棒性，其中动作预测中的小误差不会累积导致与专家轨迹的显著偏离，特别是在随机或动态环境中。最后，模仿学习致力于提高样本效率，试图使智能体能够从有限数量的专家演示中学习有效策略，减少对大量高质量数据集的依赖。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

行为克隆在构建稳健策略方面仍然存在困难[204]。它对高质量专家演示的依赖阻碍了对未见过的状态或目标的泛化。专家演示通常表现出随机性、多模态性和复杂性，策略网络难以捕捉，导致模仿保真度下降和性能退化。近年来，大模型的进展显著增强了行为克隆，解决了其固有的局限性。如图13所示，大模型在以下方面赋能模仿学习：（1）使用扩散模型构建策略网络；（2）使用Transformer构建策略网络。

5.2.1 基于扩散的策略网络

扩散模型在处理复杂的多模态分布方面表现出色[40]。它们可用于生成多样化的动作轨迹，从而增强策略的鲁棒性和表达性。最近的研究已开始将扩散模型整合到策略网络中，以克服传统模仿学习的局限性。Pearce[142]提出了一种基于扩散模型的模仿学习框架，该框架将扩散模型纳入策略网络。通过通过噪声添加和去除迭代优化专家演示，该框架可以捕捉动作分布的多样性并生成多样化的动作序列。DABC[34]采用两阶段过程，在扩散模型的支持下训练策略网络。它首先通过行为克隆预训练基础策略网络，然后通过扩散模型完善动作分布的建模。Diffusion Policy[36]提出了一种将扩散模型作为视觉驱动机器人任务决策模型的策略网络。它使用视觉输入和机器人的当前状态作为条件，采用U-Net作为去噪网络，基于视觉特征和状态向量预测去噪步骤，从而生成连续的动作序列。为了增强策略网络的空间感知能力，3D-Diffusion[217]提出了一种基于3D输入的扩散策略框架。它使用简单的3D表示作为输入，利用扩散模型生成动作序列，通过捕捉空间信息提高视觉运动策略的泛化性。与2D策略网络相比，3D-Diffusion能够更好地理解3D环境中的几何关系和空间约束。

5.2.2 基于Transformer的策略网络

Transformer架构可以通过将专家轨迹视为序列数据并利用自注意力机制建模动作、状态和目标之间的依赖关系来赋能模仿学习。这种端到端方法最大限度地减少了中间步骤中的误差累积，增强了策略的一致性和准确性。谷歌的RT-1[20]首次展示了Transformer在机器人控制中的潜力。通过将大规模、多样化的数据集（130k+轨迹，700+任务）与预训练的视觉-语言模型相结合，它显著提高了对未见过的任务和场景的任务泛化能力。后续工作RT-Trajectory[62]引入了“轨迹草图”方法，纳入低层视觉线索以增强端到端Transformer的任务泛化能力。斯坦福大学的ALOHA[224]利用Transformer的编码-解码结构从多视图图像生成机械臂动作序列，使用低成本硬件实现精确的双臂操作。其后续研究使用动作分块策略预测多步动作序列，显著提高了长期任务的稳定性和一致性。Mobile ALOHA[58]将原始任务扩展到全身协调的移动操作任务，引入移动平台和远程操作界面来处理更复杂的双臂任务。对于3D空间操作，HiveFormer[224]和RVT[60]利用多视图数据和CLIP进行视觉-语言特征融合，并直接预测6D抓取姿态，在RLBench和现实世界机械臂任务上取得了最先进的性能，凸显了Transformer在复杂空间建模中的优势。为了抓取可变形物体（例如织物或软材料），Man提出了一种结合视觉和触觉反馈的Transformer框架，通过探索性动作优化抓取参数。谷歌的RoboCat[19]采用跨任务、跨实体的具身模仿学习，整合VQ-GAN[50]对视觉输入进行令牌化，利用Decision Transformer预测动作和观察，仅用少量样本就实现了策略的快速泛化。RoboAgent[17]采用类似的编码-解码结构，融合视觉、任务描述和机器人状态，以最小化动作序列预测误差。CrossFormer[44]提出了一种基于Transformer的跨具身任务模仿学习架构，在大规模专家数据上训练，统一处理操作、导航、移动和空中任务，展示了多任务学习的潜力。

5.3 大模型赋能的强化学习

通过与环境的交互，强化学习[11]使智能体能够开发最优控制策略，适应各种未见过的场景，在动态环境中保持鲁棒性，并从有限的数据中学习，从而能够在现实世界中执行复杂任务。最初，强化学习基于基本技术，如策略搜索和价值函数优化，例如Q-learning[194]和状态-动作-奖励-状态-动作（SARSA）[164]。随着深度学习的主导地位，强化学习与深度神经网络相结合，称为深度强化学习（DRL）。DRL使智能体能够从高维输入中学习复杂策略，取得了显著成就，例如AlphaGo[174]和深度Q网络（DQN）[130]。DRL使智能体能够在新环境中自主学习，无需明确的人工干预，因此在从游戏到机器人控制等广泛应用中得到应用。后续进展进一步改善了学习效果。近端策略优化（PPO）[166]通过剪辑概率比提高了策略优化的稳定性和效率。软演员-评论家（SAC）[68]通过纳入最大熵框架提高了探索性和鲁棒性。

尽管取得了这些进展，强化学习在构建策略网络π和设计奖励函数R(s, a, g)方面仍然面临局限性。大模型的最新进展在以下方面赋能强化学习：（1）改进奖励函数设计；（2）通过建模复杂动作分布优化策略网络构建。如图14所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

5.3.1 奖励函数设计

设计奖励函数一直是强化学习的一个挑战[49]，因为它具有复杂性和任务特异性。传统的奖励函数由领域专家手动设计，需要综合考虑各种因素和专业知识，例如任务完成度、能耗、安全性以及每个因素的权重，这非常困难。手动设计通常会导致稀疏或缩放不佳的奖励，引起奖励黑客等问题，即智能体利用非预期信号最大化奖励而不实现预期目标。

大模型提供了一种有前景的解决方案，通过生成（1）奖励信号r或（2）奖励函数R(s, a, g)，减少对手动设计的依赖，并捕捉复杂的多模态反馈。Kwon等人和Language to Rewards（L2R）[215]分别引入了零样本和少样本方法，利用GPT-3直接从文本行为提示生成奖励信号，将高层目标转换为硬件特定的控制策略。然而，它们的稀疏奖励限制了在复杂任务中的使用，并且成功生成在很大程度上依赖于精确的提示或特定模板。Text2Reward[205]通过从环境描述和示例生成密集的可解释Python奖励函数来改进这一点，通过人类反馈迭代完善它们，在机器人操作和 locomotion 任务中实现了高成功率。Eureka[120]利用GPT-4从任务和环境提示创建密集奖励。它通过采用自动化迭代策略进行奖励函数优化，减轻了Text2Reward对人类反馈的依赖，超越了人工设计的奖励。此外，Auto MC-Reward[106]通过Minecraft的多阶段管道实现完全自动化，其中奖励设计器生成奖励信号，验证器确保质量，轨迹分析器通过失败驱动的迭代完善奖励。Auto MC-Reward显著提高了效率，但其特定领域的关注限制了其与Eureka和Text2Reward相比的泛化性。

5.3.2 策略网络构建

离线强化学习从预先收集的数据集中学习[101]最优策略，无需在线交互。但对静态数据集的依赖可能导致数据集中不存在的动作出现错误。策略正则化可以通过限制与行为策略的偏差来缓解这个问题。但策略表达性的局限性和次优正则化方法可能导致性能不佳。为了增强离线强化学习的表达性和适应性，研究人员提议利用（1）扩散模型、（2）基于Transformer的架构和（3）LLM来赋能策略网络的构建，如图15所示。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

基于扩散模型的策略网络构建。扩散模型[40]通过迭代加噪和去噪建模复杂动作分布，从而增强策略表达性。DiffusionQL[193]采用扩散模型作为基础策略，建模动作分布并训练以在Q-learning框架内最大化价值函数目标。这种方法生成适合离线数据集中多模态或非标准动作分布的高奖励策略。

然而，扩散模型需要大量去噪步骤才能从完全加噪的状态生成动作。为了减轻这种负担，EDP[91]引入了一种高效采样方法，从中间加噪状态一步重建动作，显著减少计算开销。EDP可以与各种离线强化学习框架集成，在保持策略表达性的同时提高采样效率。

基于Transformer的架构的策略网络构建。基于Transformer的架构利用自注意力机制捕捉轨迹中的长期依赖关系，从而提高策略的灵活性和准确性。Decision Transformer[31]将离线强化学习重新构建为条件序列建模问题，将状态-动作-奖励轨迹视为序列输入，并应用有监督学习从离线数据集中生成最优动作。基于此，Prompt-DT[207]通过纳入提示工程增强少样本场景中的泛化性，使用带有特定任务编码的轨迹提示指导新任务的动作生成。为了提高在动态环境中的适应性，Online Decision Transformer（ODT）[228]通过离线强化学习预训练Transformer以学习序列生成，然后通过在线强化学习交互对其进行微调。Q-Transformer[30]将Transformer的序列建模与Q函数估计相结合，自回归学习Q值以生成最优动作。在多任务离线强化学习中，Gato[158]采用基于Transformer的序列建模方法，但它严重依赖数据集的最优性，并且由于参数量大而导致训练成本高。

基于LLM的策略网络构建。基于Transformer的序列建模能力，LLM通过利用预训练知识简化离线强化学习任务，引入了一种新范式。GLAM[28]使用LLM作为策略智能体，生成语言定义任务的可执行动作序列，通过PPO在线优化，利用上下文记忆提高长期规划中的序列一致性。LaMo[169]采用GPT-2作为基础策略，通过LoRA进行微调以保留先验知识，将状态-动作-奖励序列转换为语言提示以生成任务对齐的策略。Reid[159]利用预训练的BERT探索LLM的可迁移性，BERT针对特定任务进行微调，并通过外部知识库增强。在D4RL基准[57]上的评估表明，Reid优于Decision Transformer，同时减少了训练时间，展示了LLM在离线强化学习中的效率。

6.世界模型

世界模型作为环境的内部模拟或表示。有了世界模型，智能系统可以预测未来状态，理解因果关系，并做出合理决策，而不必完全依赖昂贵且通常不可行的现实世界交互。世界模型提供了丰富的认知框架，促进在复杂动态环境中更高效的学习、决策和适应，从而增强智能体执行复杂任务的能力。在本节中，我们研究世界模型的设计，并考察它们如何为决策和具身学习做出贡献。

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了-AI.x社区

6.1 世界模型的设计

世界模型的概念可以追溯到强化学习[233]。传统的强化学习依赖于智能体与环境的反复交互，计算成本高，因此在数据稀缺或复杂场景中不切实际。世界模型使智能体能够在模拟环境中学习，而不是仅通过反复交互学习行为。这种方法在数据稀缺或复杂场景中特别有价值。在设计方面，当前的世界模型可分为四类：潜在空间世界模型、基于Transformer的世界模型、基于扩散的世界模型和联合嵌入预测架构，如16的上半部分所示。

6.1.1 潜在空间世界模型

潜在空间世界模型以递归状态空间模型（RSSM）[67, 69]为代表，它有助于在潜在空间中进行预测。RSSM从像素观察中学习动态环境模型，并在编码的潜在空间中规划动作。通过将潜在状态分解为随机部分和确定性部分，RSSM同时考虑了环境的确定性和随机因素。由于RSSM在机器人的连续控制任务中表现出色，出现了许多基于RSSM的工作。PlaNet[71]采用带有门控循环单元（GRU）和卷积变分自编码器（CVAE）的RSSM，利用CNN进行潜在动态和模型预测控制。Dreamer[70]通过从潜在表示中学习actor和价值网络对其进行改进。Dreamer V2[72]进一步使用actor-critic算法纯粹从世界模型生成的想象序列中学习行为，在Atari 200M基准上取得了与人类玩家相当的性能。Dreamer V3[73]通过symlog预测、层归一化和通过指数移动平均的归一化回报增强了稳定性，在连续控制任务中优于专门的算法。

6.1.2 基于Transformer的世界模型

潜在空间世界模型通常依赖于CNN或循环神经网络（RNN），因此在高维、连续或多模态环境中运行时面临挑战。基于Transformer的世界模型提供了一种强大的替代方案。它们利用注意力机制建模多模态输入，克服了CNN和RNN的局限性，特别是在复杂的记忆-交互任务中表现出卓越的性能。IRIS[129]是最早将Transformer应用于世界模型的研究之一，其中智能体在自回归Transformer-based世界模型中学习技能。IRIS使用向量量化变分自编码器（VQ-VAE）对图像进行令牌化，并采用自回归Transformer预测未来令牌，在低数据Atari 100k设置中表现出色。谷歌的Genie[24]基于时空Transformer[206]构建，通过自监督学习在大量未标记的互联网视频数据集上训练，性能优于传统的RSSM。Genie为可操作、生成性、交互式环境提供了新范式，凸显了Transformer的变革潜力。TWM[162]提出了一种基于Transformer-XL的世界模型。它将Transformer-XL的段级递归机制迁移到世界模型，能够捕捉环境状态之间的长期依赖关系。为了进一步提高效率，TWM在潜在想象中训练无模型智能体，避免在运行时进行完全推理。STORM[222]利用随机Transformer，因此在Atari 100k基准上不依赖前瞻搜索。它将状态和动作融合到单个令牌中，提高了训练效率，并在Atari 100k基准上与Dreamer V3的性能相当。这些基于Transformer的世界模型将状态、动作和观察离散化为序列，利用自注意力捕捉长期依赖关系，显著提高了预测准确性、样本效率和跨任务适应性。

6.1.3 基于扩散的世界模型

以OpenAI的Sora[22]为代表的基于扩散的世界模型，在生成原始图像空间中的预测视频序列方面取得了重大进展。与潜在空间世界模型和基于Transformer的世界模型不同，Sora利用编码网络将视频和图像转换为令牌，随后是大规模扩散模型，对这些令牌应用加噪和去噪过程，随后将它们映射回原始图像空间，基于语言描述生成多步图像预测。这种能力使Sora在具身任务中具有高度适用性。例如，Sora可以使用机器人任务描述和轨迹先验为智能体生成未来时间步的轨迹视频，增强基于模型的强化学习。UniPi[47]采用扩散模型在图像空间中建模智能体轨迹，从语言输入和初始图像生成未来关键视频帧，随后进行时间序列超分辨率以创建一致、高质量的图像序列。UniSim[212]通过在互联网数据和机器人交互视频上联合训练扩散模型进一步改进轨迹预测，能够为高层和低层任务指令预测长序列视频轨迹。

6.1.4 联合嵌入预测架构

上述数据驱动的世界模型在自然语言处理任务中表现出色，但由于依赖训练数据，缺乏现实世界常识。Meta的Yann LeCun提出的联合嵌入预测架构（JEPA）[102]是克服常识局限性的突破性方法。受人类大脑高效学习的启发，JEPA在高层表示空间中引入分层规划和自监督学习。分层规划将复杂任务分解为多个抽象级别，每个级别处理特定的子任务以简化决策和控制，专注于语义特征而非传统生成模型的像素级输出。通过自监督学习，JEPA训练网络预测缺失或隐藏的输入数据，能够在大量未标记数据集上进行预训练，并针对各种任务进行微调。JEPA的架构包括感知模块和认知模块，使用潜在变量形成世界模型，捕捉基本信息同时过滤冗余，支持高效决策和未来场景规划。通过纳入双系统概念，JEPA平衡了“快速”直觉反应和“缓慢”深思熟虑的推理。分层规划、自监督学习和强大的世界模型的结合使JEPA成为复杂现实世界环境的可扩展、受认知启发的框架。

6.2 决策中的世界模型

世界模型可以为智能体提供强大的内部表示，使它们能够在采取实际行动之前预测环境动态和潜在结果。对于决策，它主要发挥两个作用：（1）模拟验证和（2）知识增强，如16的左侧所示。通过这些机制，世界模型可以显著提高智能体在复杂动态环境中规划和执行任务的能力。

6.2.1 用于模拟验证的世界模型

在机器人技术中，测试决策可能极其昂贵且耗时，特别是在顺序和长期任务中，当前决策对未来性能有深远影响。世界模型可以通过启用模拟验证来缓解这个问题，允许智能体“尝试”动作并观察可能的后果，而无需实际的世界承诺。这种模拟验证大大缩短了迭代时间，并促进了对否则不切实际的极端情况或高风险场景的安全测试。预测动作如何影响未来环境状态的能力帮助智能体识别和避免潜在错误，最终优化性能。NeBula[3]使用贝叶斯滤波构建概率信念空间，使机器人能够在各种结构配置（包括未知环境）中有效推理，提供了一种在不确定性下预测结果的复杂方法。UniSim[212]是一个用于现实世界交互的生成模拟器，可以模拟高层指令和低层控制的视觉结果。它包含一个统一的生成框架，将动作作为输入，整合不同调制的多样化数据集。

6.2.2 用于知识增强的世界模型

为了成功完成现实世界任务，智能体通常需要丰富的知识和环境常识。世界模型可以为智能体提供策略规划所需的预测性和上下文知识。通过预测未来环境状态或丰富智能体对世界的理解，世界模型使智能体能够预测结果，避免错误，并随着时间的推移优化性能。世界知识模型（WKM）[146]通过在任务前提供全局先验知识并在任务期间维护局部动态知识，模仿人类的心理世界知识。它综合了来自专家和采样轨迹的全局任务知识和局部状态知识，与LLM集成时实现了卓越的规划性能。Agent-Pro[221]将智能体与环境的交互（特别是在交互任务中与其他智能体的交互）转换为“信念”。这些信念代表智能体对环境的社会理解，并为后续决策和行为策略更新提供信息。GovSim[144]探索了LLM智能体社会中合作行为的出现。这些智能体通过多智能体对话收集关于外部世界和其他智能体策略的信息，隐含地形成自己对世界模型的高层见解和表示。

6.3 具身学习中的世界模型

除了决策，世界模型还可以使智能体高效地学习新技能和新行为。与无模型强化学习不同，无模型强化学习通常通过智能体与环境的直接交互产生高计算成本和数据低效性，基于模型的强化学习通过（1）模拟状态转移和（2）生成数据，利用世界模型简化学习过程，如16的右侧所示。

6.3.1 用于状态转移的世界模型

传统的强化学习是无模型的，直接从智能体与环境的交互中学习，计算密集且在数据稀缺或复杂场景中不切实际。基于模型的强化学习通过利用明确捕捉状态转移和动态的世界模型来缓解这些局限性，允许智能体从模拟环境中增强学习过程，进行安全、经济高效和数据高效的训练。世界模型创建现实世界的虚拟表示，以便智能体可以探索假设动作并完善策略，而没有与现实世界交互相关的固有风险或成本。RobotDreamPolicy[145]学习世界模型并在其中开发策略，大大减少与真实环境的交互。DayDreamer[202]利用基于RSSM的世界模型Dreamer V2，将观察编码为潜在状态并预测未来状态，在真实机器人中实现快速的技能学习，具有高样本效率。SWIM[128]更进一步，利用互联网规模的人类视频数据理解丰富的人类交互并获得有意义的功能。它最初在大型第一人称视频数据集上训练，然后用机器人数据微调以适应机器人领域。随后，使用这个世界模型可以高效地学习特定任务的行为。

6.3.2 用于数据生成的世界模型

除了赋能学习和优化策略外，世界模型，特别是基于扩散的世界模型，还可用于合成数据，这对于具身智能特别有价值，因为收集多样化和广泛的现实世界数据具有挑战性。基于扩散的世界模型可以合成逼真的轨迹数据、状态表示和动态，从而扩充现有数据集或创建全新的数据集以增强学习过程。SynthER[118]利用基于扩散的世界模型生成低维离线RL轨迹数据，以扩充原始数据集。他们的评估表明，扩散模型可以有效地从轨迹数据中学习状态表示和动力学方程。MTDiff[77]应用基于扩散的世界模型生成多任务轨迹，使用专家轨迹作为提示来指导与特定任务目标和动态对齐的智能体轨迹生成。VPDD[76]使用大规模人类操作数据集训练轨迹预测世界模型，然后仅用少量标记动作数据微调动作生成模块，显著减少策略学习对大量机器人交互数据的需求。

7 挑战与未来展望

具身智能提供了超越虚拟范围的前所未有的机会。然而，挑战依然存在。在本节中，我们讨论高质量具身数据稀缺、长期适应性的持续学习、计算和部署效率以及模拟到现实差距等主要开放问题。通过研究核心挑战，我们指出了构建稳健、适应性强且真正智能的具身系统的潜在研究方向。

7.1 具身数据的稀缺性

训练具身智能体需要大量多样的数据集。RT-X[186]从60多个实验室收集了机械臂数据，并构建了开放的X-Embodiment数据集。AutoRT[5]提出了在新环境中自动收集数据的系统。然而，现实世界的机器人数据仍然不足。原因包括机器人设计的巨大多样性、现实世界交互的复杂性以及各种任务的特定要求等。最先进的具身数据集，例如VIMA[89]（有650,000个演示）和RT-1[28]（有130,000个演示），与它们的视觉-语言对应物（如LAION-5B（有57.5亿个文本-图像对））相比仍然相形见绌。为了解决具身数据稀缺问题，研究人员尝试了各种解决方案。

（1）利用世界模型，特别是基于扩散的世界模型，从现有智能体经验中合成新数据。SynthER[118]利用基于扩散的世界模型合成数据并扩充离线RL轨迹数据集，显著提高了离线和在线设置中的性能。

（2）整合大型人类数据集。Ego4D[61]提供了从互联网来源视频中收集的丰富现实世界动态和观察。这种方法通过利用常见的人类行为和交互，有助于提高对机器人任务的上下文理解。然而，由于人类和机器人之间的形态差异，将人类动作直接转移到机器人通常会导致错位和可转移性降低。

通过世界模型生成数据强调数据质量和多样性，而人类数据整合则利用现实世界上下文。它们仍然面临现实差距、计算成本和对齐问题等挑战。

7.2 持续学习

具身智能系统应该能够通过与开放动态环境的持续交互自主更新知识和优化策略，同时在不断变化的任务和条件下保持先前获得的能力。这种能力可以通过持续学习[127]实现。没有持续学习，智能体需要为每个新场景或轻微的环境变化重新训练，严重限制了其现实世界效用。然而，持续学习存在显著障碍。

（1）灾难性遗忘[141]仍然是一个核心问题，即学习新任务会降低先前的知识。例如，一个为平坦表面导航而完美训练的机器人在随后被分配到崎岖地形任务时可能会失去熟练程度，限制了机器人的经验积累。

（2）高效的自主探索很困难，因为当前方法仍然难以有效平衡探索新经验和利用现有知识，特别是在高维状态空间或奖励稀疏的场景中。

（3）现实世界固有的不可预测性，包括传感器退化或机械磨损，进一步使持续学习复杂化，需要智能体具备强大的自我诊断和自我修复能力。

为了应对这些挑战，研究人员正在探索各种方法。经验回放[10]可以通过定期回顾历史数据来减轻灾难性遗忘。正则化技术[98]通过在新任务学习期间约束权重更新来保留先前的任务知识。数据混合策略[100]整合不同比例的先前数据分布和新数据，以减少特征失真。CycleResearcher[199]等框架通过优化策略和奖励模型，促进复杂过程中的具身学习。未来的进展可能包括增强自监督学习以通过内在动机驱动主动探索，以及纳入多智能体协作机制以通过集体交互加速个体学习。

7.3 计算和部署效率

日益复杂的具身智能模型需要大量的计算资源进行训练和部署。例如，DiffusionVLA[22]需要数百个高端GPU和在百万规模轨迹数据集上训练数周，计算量达到千万亿次（PFLOPs）。其推理期间的迭代采样导致几秒钟的延迟，这是机器人实时控制应用的障碍。基于Transformer的VLA RT-2[234]保持复杂的架构，需要约20GB的视频内存。尽管RT-2通过预训练降低了训练成本，但这种高内存需求使在资源受限的边缘设备（如实际机器人）上的部署复杂化。作为替代方案的基于云的部署通常由于物理机器人交互中固有的数据隐私、安全和实时操作约束而不切实际。为了缓解这些挑战，正在探索几种策略。

（1）参数高效微调（PEFT）方法，如LoRA[82]，显著降低微调成本。通过仅更新低秩矩阵，它们可以实现约为全微调成本1/10的训练成本。然而，这种效率可能会损害在高度复杂任务上的性能。

（2）模型压缩技术，包括知识蒸馏和量化，可以用于在有限硬件上部署大模型。TinyVLA采用知识蒸馏将大模型压缩到约1000万参数。结合快速采样算法和4位量化，TinyVLA[234]实现了令人印象深刻的30ms推理延迟和2GB内存占用，使其适用于边缘设备。

（3）硬件加速提供了另一种提高效率的解决方案，如MiniGPT-4[232]。尽管提供即时性能提升，但特定于硬件的优化通常缺乏跨不同平台的泛化性。

通过压缩技术优化大规模模型和设计本质上轻量级的架构是在边缘设备上有效且广泛部署具身智能的最可行方法。

7.4 模拟到现实差距

具身智能需要大量数据来训练智能体。然而，为各种具身收集此类现实世界数据成本过高或不切实际。模拟器通过使智能体能够在大型多样的模拟数据集上训练[163]来缓解这个问题，这被证明是一种经济高效且可扩展的解决方案。在模拟器中训练后，通过模拟到现实的迁移将智能体部署到现实世界中。

然而，由于模拟环境和现实世界之间的根本差异，模拟到现实的迁移存在“模拟到现实差距”[187]。这些差异以各种形式表现出来，例如不准确的物理动态[33]和视觉渲染的差异[14]。例如，摩擦、碰撞和流体行为难以精确建模；照明、相机曝光和材料特性难以模拟。在模拟环境中训练的智能体在面对现实世界的细微缺陷和复杂性时往往会意外失败，因为模拟无法完全复制现实。因此，训练良好的策略可能在现实世界的分布外场景中失败。此外，精确建模现实世界环境本质上具有挑战性[41]。模拟与现实世界之间的细微差异在长期决策中往往会累积，导致策略对环境变化不稳健或不适应。

先进的模拟器，如可微分且高度逼真的Genesis[134]，正通过精确的物理建模和照片级真实感渲染积极缩小这一差距，从而提高智能体从模拟器到现实世界的可迁移性。尽管如此，弥合模拟到现实的差距仍然是稳健具身智能的主要挑战。

8.结论

大模型的出现赋予了具身智能体强大的智能能力。在本文中，我们对具身智能的技术和最新进展进行了全面综述，重点关注大模型赋能的自主决策和具身学习。我们首先介绍具身智能和各种主要大模型的预备知识，回顾它们在具身智能方面的最新发展和应用。然后，我们详细阐述具身智能的决策方法，详细介绍分层和端到端两种范式、它们的潜在机制和最新进展。之后，我们回顾具身学习机制，重点关注模仿学习和强化学习，特别是大模型如何赋能它们。随后，我们介绍世界模型，阐述它们的设计方法以及在决策和具身学习中的重要作用。最后，我们讨论具身智能中的开放挑战，包括具身数据稀缺、持续学习、计算和部署效率以及模拟到现实差距，以及潜在的解决方案。通过这项系统研究，我们为研究人员和工程师提供了对具身智能领域现状和开放挑战的深入总结和分析，同时指出了通往人工通用智能的潜在方向。

参考资料

•标题：Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

•作者：WENLONG LIANG, RUI ZHOU, YANG MA, BING ZHANG, SONGLIN LI, YIJIA LIAO, PING KUANG

•单位：University of Electronic Science and Technology of China, China

•标签：具身智能（Embodied AI）、大模型（Large Model）、自主决策、具身学习、分层决策、端到端决策、模仿学习、强化学习、世界模型

•概述：本文对大模型赋能的具身智能进行了全面综述，重点探讨了自主决策（分层和端到端范式）、具身学习（模仿学习和强化学习的大模型增强）、世界模型的设计与应用，并分析了当前挑战与未来方向。

•链接：https://arxiv.org/pdf/2508.10399

作者：张长旺，图源：旺知识

本文转载自旺知识，作者：旺知识

标签

51CTO

51CTO博客

51CTO学堂

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了 精华

摘要&解读

1.引言

2.预备知识

2.1 具身智能

2.2 大模型

2.2.1 大型语言模型

2.2.2 大型视觉模型

2.2.3 大型视觉语言模型

2.2.4 多模态大模型

2.2.5 视觉-语言-动作模型

2.3 大模型的一般能力增强

2.4 具身大模型

3.分层自主决策

3.1 高层规划

3.1.1 基于LLM的结构化语言规划

3.1.2 基于LLM的自然语言规划

3.1.3 基于LLM的编程语言规划

3.2 低层执行

3.2.1 传统控制算法

3.2.2 基于LLM的学习驱动控制

3.2.3 基于LLM和预训练模型的模块化控制

3.3 反馈与增强

3.3.1 大模型的自我反思

3.3.2 人类反馈

3.3.3 环境反馈

4.端到端自主决策

4.1 视觉-语言-动作模型

4.2 VLA的增强方法

4.2.1 感知能力增强

4.2.2 轨迹动作优化

4.2.3 训练成本降低

4.3 主流VLA模型

4.4 分层与端到端决策

5.具身学习

5.1 具身学习方法

5.1.1 模仿学习

5.1.2 强化学习

5.1.3 迁移学习

5.1.4 元学习

5.2 大模型赋能的模仿学习

5.2.1 基于扩散的策略网络

5.2.2 基于Transformer的策略网络

5.3 大模型赋能的强化学习

5.3.1 奖励函数设计

5.3.2 策略网络构建

6.世界模型

6.1 世界模型的设计

6.1.1 潜在空间世界模型

6.1.2 基于Transformer的世界模型

6.1.3 基于扩散的世界模型

6.1.4 联合嵌入预测架构

6.2 决策中的世界模型

6.2.1 用于模拟验证的世界模型

6.2.2 用于知识增强的世界模型

6.3 具身学习中的世界模型

6.3.1 用于状态转移的世界模型

6.3.2 用于数据生成的世界模型

7 挑战与未来展望

7.1 具身数据的稀缺性

7.2 持续学习

7.3 计算和部署效率

7.4 模拟到现实差距

8.结论

参考资料

目录

大模型如何让机器人 “能思考、会学习”？这篇综述讲透了精华