开启轻量化机器人控制新时代

发布于 2025-6-15 23:41
浏览
0收藏

视觉-语言-动作模型(Vision-Language-Action,VLA)已成为机器人智能控制的重要突破口。然而,传统的VLA模型往往依赖于拥有数十亿参数的大型变换器架构,这不仅带来了巨大的内存和计算成本,还将实验和部署局限在资源充足的实验室和云端环境中。


Hugging Face于2025年6月3日正式发布了SmolVLA——一个专为经济和高效部署而设计的紧凑型VLA模型。


SmolVLA的推出标志着机器人控制技术的一个重要转折点。它不仅打破了传统VLA模型的资源壁垒,还为广大开发者和研究人员提供了一个可在单GPU或CPU环境中运行的开源解决方案。这一创新不仅降低了机器人学习的门槛,更为实现真正的边缘计算机器人控制奠定了基础。

1.传统VLA局限性

硬件资源门槛过高:现有的VLA模型普遍采用基于变换器的骨干网络,参数规模动辄数十亿,导致显著的内存和计算开销。这种高资源需求使得只有配备高端硬件的实验室才能进行相关研究,严重限制技术普及和应用。


研究成果封闭性:目前VLA研究领域的大部分进展要么属于专有技术,要么基于不可复现的方法论,这严重阻碍了开放性研究的发展。


数据异构性问题:不同机器人平台在形态学、传感器配置、控制模式等方面存在显著差异,这种数据异构性为通用化学习和跨平台部署带来了巨大挑战。

2.SmolVLA

SmolVLA采用了创新的双组件架构设计,将感知和动作预测功能巧妙分离。感知模块(SmolVLM-2)基于预训练的紧凑型视觉-语言编码器,负责处理RGB图像序列、感知运动状态和语言指令。为了提高效率,该模块通过下采样限制视觉令牌数量,并仅使用Transformer的下半部分,因为有研究证明早期层通常产生更具可转移性的特征。


动作专家模块采用轻量级Transformer架构,使用流匹配(Flow Matching)技术训练,预测连续控制动作序列。该模块在自注意力和交叉注意力层之间交替。


开启轻量化机器人控制新时代-AI.x社区



SmolVLA的最大技术创新之一是其异步推理堆栈,该架构将动作预测与执行解耦。传统方法中,机器人必须等待当前动作块完全执行完毕后才能预测下一个动作块,这会导致推理间隙期间的系统空闲,影响实时性能。


开启轻量化机器人控制新时代-AI.x社区


SmolVLA的异步架构通过RobotClient和PolicyServer的分离设计,实现了动作预测与执行的并行处理。当终端仍在消费先前可用的动作队列时,系统就可以触发新的动作块预测,显著提高了系统响应性。相比传统同步推理,异步方法将平均任务时间减少约30%,在固定时间场景下完成的动作数量翻倍。这对于推理延迟会影响实时性能的边缘部署场景尤为重要。


SmolVLA采用基于流匹配的动作专家架构,这是一个重要的技术突破。与传统仅依赖自注意力或交叉注意力的方法不同,SmolVLA采用交替的设计方案。每个块包含自注意力(SA)或交叉注意力(CA)层,其中CA层交叉关注VLM的键值对,SA层允许动作令牌相互关注。


在SA层中采用因果注意力掩码,确保每个动作令牌只能关注块内的过去令牌,防止未来动作依赖性。这一设计有效提高了动作块的平滑性,特别是在真实机器人评估中表现突出。



开启轻量化机器人控制新时代-AI.x社区



基于先验研究发现,SmolVLA只使用VLM的前半部分层(N = L/2),这一设计在速度和性能之间实现了良好平衡,有效将LLM和动作专家的计算成本减半。虽然高分辨率图像对VLM性能至关重要,但会增加推理成本。SmolVLA不使用图像分块技术,仅使用全局图像加像素重排操作,将每帧的视觉令牌限制为64个。


VLM(视觉-语言模型)的不同层处理不同层次的信息:


前半部分层(浅层)提取基础视觉特征(边缘、纹理、形状),处理基本语言语义,计算效率高,参数相对较少。后半部分层(深层)进行高级抽象和推理,复杂的多模态融合,计算成本高,参数众多。


假设任务是拿起红色的杯子,前半部分层已经能提供识别出红色区域,检测到杯子的形状,理解拿起的基本含义,物体的3D位置信息。


后半部分层提供的额外能力:关于杯子的文化背景知识,对于机器人执行动作来说,前者已经足够了。

3.数据处理与标准化创新

SmolVLA在数据处理方面实现了重要突破,从481个社区数据集中筛选出约23,000个episode,覆盖1060万帧数据。这一数据规模虽然比其他最先进方法至少小一个数量级,但通过巧妙的数据处理策略实现了优异的性能。


VLM自动标注:针对社区数据集中任务标注质量参差不齐的问题,SmolVLA采用现成的VLM(Qwen2.5-VL-3B-Instruct)自动生成简洁的任务描述。系统对每个数据集采样代表性帧,结合原始指令,生成面向动作的简短句子摘要。


标准化处理:为解决相机命名约定的高度变异性问题,SmolVLA手动将每个相机映射到标准化视图类型,优先考虑顶部、腕部和侧面视角,并重命名为OBS_IMAGE_1、OBS_IMAGE_2和OBS_IMAGE_3。


开启轻量化机器人控制新时代-AI.x社区


LIBERO基准测试:在LIBERO基准测试中,SmolVLA(0.45B参数)实现了87.3%的平均成功率,接近或超越了参数规模更大的模型如π₀(3.3B参数)。这一表现尤其令人瞩目,因为SmolVLA没有经过机器人特定的预训练。Meta-World评估:在Meta-World基准测试中,SmolVLA在各个任务难度级别上均优于扩散策略和小规模VLA模型,展现了其优秀的泛化能力。

在真实世界设置中,SmolVLA在抓取-放置、堆叠和分拣任务中实现了78.3%的平均成功率,显著优于从头训练的ACT和经过微调的π₀。更令人印象深刻的是,SmolVLA展现了优秀的跨机器人实体泛化能力。尽管仅在SO100数据上训练,但在SO101平台上仍保持了良好的性能表现。相比π₀,SmolVLA的训练速度快约40%,内存消耗减少6倍,为资源受限环境

下的机器人学习提供了可行的解决方案。

SmolVLA的核心设计哲学是追求效率与性能的最优平衡点。无论是前半部分VLM层的选择、交替注意力的架构,还是适度的专家容量配置,每一个技术决策都体现了对计算资源的精打细算和对实用性的深度考量。

本文转载自​​​​​​鲁班模锤​​​​​​,作者:庞德公

收藏
回复
举报
回复
相关推荐