SmolVLA来袭:用“小模型”解锁高效机器人控制 精华

发布于 2025-7-1 08:38
浏览
0收藏

在当今这个科技飞速发展的时代,机器人已经逐渐走进了我们的生活。从工业生产线上的机械臂,到家庭中的扫地机器人,它们都在以各种形式为我们提供便利。然而,尽管我们在机器人控制领域取得了不少进展,但将这些技术真正应用到现实场景中,依然面临着诸多挑战。尤其是那些基于大规模视觉-语言-动作(VLA)模型的机器人系统,往往因为硬件和数据需求过高,而难以在普通环境中广泛部署。这些模型通常依赖于拥有数十亿参数的Transformer架构,不仅需要大量的内存,还对计算能力提出了极高的要求。这使得许多研究和实验只能在资源丰富的实验室或云端进行,那些使用低成本硬件的研究者们往往被拒之门外。此外,目前VLA领域的许多研究成果要么是保密的,要么无法复现,这极大地阻碍了开放研究的进程。再加上不同机器人平台之间在形态、传感器和控制模式上的差异,使得数据异构性问题愈发突出,进一步增加了跨平台学习和泛化的难度。

SmolVLA来袭:用“小模型”解锁高效机器人控制-AI.x社区

但就在最近,Hugging Face给我们带来了一个好消息——他们推出了SmolVLA,一款专为低成本和高效部署而设计的紧凑型视觉-语言-动作模型。与传统的VLA模型不同,SmolVLA完全基于社区收集的数据集进行训练,并且经过优化,能够在单GPU甚至CPU环境下运行。它的模型架构将一个预训练的紧凑型视觉-语言模型(SmolVLM-2)和一个基于Transformer的动作专家模块相结合,能够从自然语言指令和RGB相机输入中实现高效的低级控制。

SmolVLA有一个非常独特的特点,那就是它的异步推理堆栈。这种设计将动作预测与执行解耦,使得模型即使在资源受限的环境中,也能实现低延迟控制,非常适合实时应用。而且,SmolVLA是以开源许可证发布的,附带了代码、训练数据和部署工具,这对于推动整个行业的发展无疑是一个巨大的福音。

架构概览与设计权衡

SmolVLA模型主要由两个部分构成:

感知模块(SmolVLM-2)

这个模块是一个预训练的紧凑型视觉-语言编码器,能够处理RGB图像序列、传感器运动状态和语言指令。为了提高效率,模型通过下采样限制了视觉标记的数量,并且只使用了Transformer层的下半部分。这是因为研究发现,较早的层通常会产生更具可迁移性的特征。

动作专家

这是一个轻量级的Transformer,通过流匹配进行训练,用于预测连续控制动作的序列。动作专家在自注意力层和交叉注意力层之间交替,以平衡内部动作的一致性和对感知输入的条件约束。同时,为了确保时间一致性,还应用了因果掩码。

为了减少计算开销,模型使用线性投影来对齐不同模态的标记维度,并且生成动作块而不是单步预测,从而减少了推理调用的频率。此外,模型还通过bfloat16精度和Torch的JIT编译进行了运行时优化。

实证评估:仿真与现实世界的性能

SmolVLA在仿真基准测试(LIBERO和Meta-World)以及使用低成本SO100和SO101平台的真实机器人任务中都进行了评估。模型从头开始在481个社区数据集上进行了训练,涵盖了约2.3万个剧集,任务标签由一个VLM自动生成。评估指标包括在分布内和分布外条件下任务级别的成功率。

在LIBERO基准测试中,SmolVLA(0.45B)的平均成功率达到了87.3%,与π₀(3.3B)等更大的模型不相上下,甚至在某些情况下还超过了它们。在Meta-World中,该模型在不同难度级别的任务中都优于扩散策略和较小规模的VLA。考虑到SmolVLA较小的训练足迹以及缺乏针对机器人学的预训练,这些结果尤其令人印象深刻。

在现实场景中,SmolVLA在抓取放置、堆叠和排序任务中的平均成功率达到了78.3%,超过了从头开始训练的ACT和经过微调的π₀。此外,SmolVLA还能够跨机器人实体进行泛化,即使只在SO100数据上进行训练,也能在SO101上保持性能。

SmolVLA来袭:用“小模型”解锁高效机器人控制-AI.x社区

异步推理的性能影响

SmolVLA的异步推理堆栈通过重叠预测和执行来提高控制效率。与传统的同步推理相比,这种方法将平均任务时间缩短了约30%,并且在固定时间场景下,完成的动作数量翻了一番。这对于边缘部署来说尤其有利,因为在这些场景中,推理延迟会严重影响实时性能。

结论

SmolVLA证明了紧凑型、可复现和开源的VLA模型能够在低成本硬件上实现高效的机器人控制。通过精心的架构选择——包括层剪枝、分块动作预测和异步执行——SmolVLA在显著降低计算需求的同时,保持了性能。

SmolVLA的开放训练和部署堆栈,加上真实世界的评估,为高效和可访问的机器人学习研究提供了一个实用的基础。未来的研究方向包括扩展跨实体数据集、在不牺牲延迟的情况下扩展模型容量,以及探索在机器人数据之外的多模态语料库上进行联合训练。


本文转载自Halo咯咯    作者:基咯咯

已于2025-7-1 08:38:10修改
收藏
回复
举报
回复
相关推荐