智驾中的VLA方案总结原创

shizhi02

发布于 2025-5-13 06:41

浏览

0收藏

智驾中的VLA方案总结。

相对于VLM，最近智驾中开始流行VLA，VLM关注的重点在于环境建模，VLA除了考虑环境建模，还需要关注规划和控制问题。

总得来说，这些VLA方案中都包含两个核心组件：

Pretrained VLM，侧重思考和慢推理
Action Model，侧重动作预测

那么本篇整合具身智能中主要的四种VLA方案，并联合智驾领域进行总结。下面是一个快捷目录。

1. Pretrained VLM/LLM + action prediction

2. Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

3. Diffusion model / LLM + Diffusion

4. Video generation + Inverse Kinematics (有点类似于world model的思路)

一、Pretrained VLM/LLM + action prediction

顾名思义，这种方案直接基于预训练的VLM或LLM，action直接以token的形式预测出来；这种方案下微调的时候pretrained model也需要跟着进行微调。

这种方案比较典型的例子是openVLA。

智驾中的VLA方案总结-AI.x社区

可以明显得看到，openVLA输出的不是文本，而是Action Token，类似于MotionLM的栅格法，把连续的动作分到一些栅格中，每个箱子是一个token。然后拿机器人未来的行为微调VLM。

另外论文也证实了，微调时如果不调vision backbone，效果会很差。

这种方案的好处是借鉴成熟的语言模型，预训练和scale的经验成本更小。

在智驾中，这种方案容易遇到的问题是：出问题追溯的时候，很难区分是Pretrained VLM部分的问题还是Action部分的问题；所以单独地训练Action Token Prediction，或者去考虑两部分的融合设计很有必要。

二、Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

这种方案也算是经典方案了，从头开始训练一个encoder-decoder型Transformer，把状态和视觉观测当成latent condition，然后用action query-based Transformer decoder解码出action。

这种方案比较典型的例子是Act。

智驾中的VLA方案总结-AI.x社区

网络主要是一个Conditional VAE。

智驾中的VLA方案总结-AI.x社区

一般自回归的方案会有一个问题，每次推理都可能有误差，而且这个误差会随着自回归过程累积，越来越大(第一种方案中也存在这样的问题)；即使是连续空间的自回归，也存在一些因果混淆等因素会导致偶现一些帧出现一些错误，这时自回归的方案会放大这种误差。

因此这篇论文的核心是提出了Action Chunking方法，来防止误差随着自回归过程越来越大(componding error)，特别是中间哪步比较大的错误会导致后续严重问题，并可以一定程度解决因果混淆问题。

智驾中的VLA方案总结-AI.x社区

方案如上图所示，每次推理输出k个step作为一个action chunk，然后最终每步forward时，越旧的结果权重越大，加权后作为最终的结果。

目前大多论文都采用了这种Action Chunking来输出动作序列；在智驾中，也有一些相关的研究与探索。

三、Diffusion model / LLM + Diffusion

这种方案主要基于Diffusion model，通过多步降噪对于更精细粒度的任务更有优势。

另外，也可以引入LLM，LLM用来压缩多模态表征，Diffusion作为action expert精细化输出action trajectories，diffusion本身也是可以作为LLM的一个轻量head或者类MoE的expert，所以使用Diffusion并不影响结合pre-trained LLM。

这种方案比较典型的例子是Diffusion Policy。

智驾中的VLA方案总结-AI.x社区

这种方法在开始尝试解决action multi-modal的问题。

智驾中的VLA方案总结-AI.x社区

现实世界中解决某一特定任务的方式是多样的，而不是唯一的。但神经网络预测只能给出单一的方式，无法应对可能有多种方式的任务情况。

下面具体说一下action multi-modal的问题，这里引用迟宬的解释：

假设我现在在开车，前面有一棵树。比如说，我雇佣了100个司机来解决这个问题。在这种情况下，有可能有50个司机选择往左拐，绕过树的左边，还有50个司机选择从树的右边绕过去。在这种情况下，往左绕和往右绕都是完全合理的。然而，当我们将所有这些解决方案合并为一个时，问题就变成了一个多模态分布，即我看到的相同场景有两种不同的选择。这对传统神经网络的预测来说并不友好，因为它通常使用均方误差（MSE）损失进行训练，而这无法有效处理Multi-Modal情况。

https://zhuanlan.zhihu.com/p/670555655

想解决上述问题有两大难点：

1）对未来动作的预测不应该只局限于眼前的一步两步动作，而应该更有前瞻性，可以往前预测数十步动作；但是预测高维空间的成本非常高，因为它们只能预测一步，接下来的步骤是什么。如果再加上更多的步骤，维度就会变得越来越高

2）训练过程极易不稳定

那么Diffusion Policy就是去解决这两大难题。

Diffusion Policy是一种新型机器人行为生成方法（Robot Action Generation），将机器人的视觉动作策略（Visuomotor Policy）表示为条件去噪扩散过程（Conditional Denoising Diffusion Process）。

Diffusion Policy训练过程非常稳定。基本上，可以随便调整参数，生成器就能够输出结果，可能效果不是最优的，但基本上都能work。

目前这种方案最大的问题不是Policy本身，而是数据。

这块由于智驾领域对于动态障碍物的响应需求是远高于机器人，所以目前来说这种方案很难迁移过去。

四、Video generation + Inverse Kinematics

这种方案先根据首帧和指令生成运动视频，然后逆运动学得到对应的动作；可解释性很强，但是非常受到视频生成质量和instruction-following的能力的影响。

这种方案比较典型的例子是GR2。

智驾中的VLA方案总结-AI.x社区

论文基本上就是WorldModel的思路，直接拿大规模的带文本描述的视频来学习视频生成任务，然后拿机器人的数据接入机器人的额外传感器输入来完成Fine Tuning出Action。

智驾中的VLA方案总结-AI.x社区

这种方案的通用思路是基于一个通用的视频生成模型来做图像和视频场景理解，然后接专用网络、专用数据出action；上限是最高的，但训的时候需要资源量也大。

写在最后，self-reasoning / inference time scale 这块在未来应该也是能带来收益的研究，下次再着重分享下这块内容。

参考文献

[1] 具身智能Vision-Language-Action的思考💡 - 知乎(https://zhuanlan.zhihu.com/p/9880769870?utm_campaign=shareopn&utm_medium=social&utm_psn=1895892562612557674)

[2] 近几年VLA方案调研（截止25.03.14） - 知乎(https://zhuanlan.zhihu.com/p/30182000493?utm_campaign=shareopn&utm_medium=social&utm_psn=1895893794794218922)

[3]OpenVLA: AnOpen-Source Vision-Language-Action Model [2406.09246](https://arxiv.org/pdf/2406.09246)

[4] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware [2304.13705](https://arxiv.org/pdf/2304.13705)

[5] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion https://arxiv.org/pdf/2303.04137

[6] GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation [2410.06158](https://arxiv.org/pdf/2410.06158)

本文转载自瓦力算法学研所，作者：喜欢瓦力的卷卷

标签

VLM

VLA

智驾

已于2025-5-13 06:41:08修改

51CTO

51CTO博客

51CTO学堂