
LFM2-VL:端侧高效的视觉语言模型 原创
现有的大多数视觉语言模型都面临着一个共同的挑战:如何在保持高性能的同时,实现更高的计算效率和更快的推理速度。近日,Liquid AI公司发布了其首个视觉语言基础模型系列——LFM2-VL,这一创新产品专为低延迟和设备感知部署而设计。LFM2-VL扩展了LFM2系列开源基础模型到视觉语言空间,支持可变分辨率的文本和图像输入。
当前市场上的主流视觉语言模型虽然在精度上表现出色,但往往需要大量的计算资源,难以在移动设备、边缘计算设备等资源受限的环境中部署。这种情况限制了视觉语言模型在更广泛场景中的应用,特别是在实时性要求较高的应用场景中。
随着物联网、智能手机、可穿戴设备等边缘计算设备的普及,对本地化AI处理能力的需求日益增长。用户希望能够在不依赖云服务的情况下,在自己的设备上直接运行AI模型,以获得更快的响应速度、更好的隐私保护和更低的使用成本。
1.LFM2-VL的核心创新
LFM2-VL提供两个变体:超高效的LFM2-VL-450M适用于高度资源受限的环境,以及更强大但仍然轻量的LFM2-VL-1.6B。这种双模型策略允许用户根据具体应用场景和资源限制选择最适合的版本。
450M参数的版本专为极端资源受限环境设计,如智能手机、可穿戴设备等。而1.6B参数的版本则在保持轻量化的同时,提供更强的能力,适合笔记本电脑、单GPU实例等相对资源充足的环境。
LFM2-VL在GPU上与现有模型相比实现了高达2倍的推理加速,同时保持竞争性的准确率。这一性能提升对于实时应用具有重要意义,能够显著改善用户体验,降低计算成本。推理速度的提升主要得益于以下几个方面的优化:
- 高效的模型架构设计
- 优化的计算流程
- 智能的图像处理策略
- 灵活的速度-质量权衡机制
- 灵活的架构设计
LFM2-VL具有灵活的架构,用户可在推理时调节速度-质量权衡。这种设计使得同一个模型可以适应不同的应用需求和资源约束,无需重新训练或部署多个版本的模型。用户可以根据具体需求调整以下参数:
- 最大图像标记数量(控制有效输入分辨率)
- 图像块的数量
- 处理精度等级
这种灵活性使得LFM2-VL能够在各种不同的部署环境中发挥最佳性能。
2.技术架构深度分析
LFM2-VL由三个主要组件组成:语言模型骨干、视觉编码器和多模态投影器。这种模块化设计不仅便于理解和维护,还为后续的优化和扩展提供了良好的基础。
1) 液体神经网络架构LFM2-VL继承了Liquid AI独有的液体神经网络(Liquid Neural Networks)技术特点。与传统的Transformer架构不同,液体网络具有以下关键特性:
- 动态连接权重:网络权重可以根据输入动态调整,提供更强的适应性
- 时间连续性:采用连续时间递归神经网络(CT-RNN),能够处理任意时间间隔的序列
- 因果结构:内置的因果约束确保模型的可解释性和稳定性
- 稀疏激活:智能的稀疏激活机制减少不必要的计算
2)LFM2-VL实现了创新的自适应计算机制:
- 早期退出策略:对于简单任务,模型可以提前终止计算,节省资源
- 层级跳跃:根据输入复杂度动态选择处理层数
- 注意力剪枝:实时剪除不重要的注意力连接
- 动态批处理:根据输入特性调整批处理大小
语言模型骨干基于LFM2系列构建,继承了其高效的语言处理能力。对于LFM2-VL-1.6B版本,使用LFM2-1.2B作为基础;对于LFM2-VL-450M版本,则使用LFM2-350M作为基础。这种设计确保了语言理解能力的一致性和可靠性。
LFM2-VL使用SigLIP2 NaFlex编码器将输入图像转换为标记序列。实现了两个变体:形状优化版本(400M参数)专为LFM2-VL-1.6B设计,提供更细粒度的视觉能力。基础版本(86M参数)专为LFM2-VL-450M设计,实现快速图像处理。
3.SigLIP2 NaFlex编码器
LFM2-VL优化SigLIP2,包括Sigmoid损失函数,NaFlex(Native Flexible)架构,视觉特征层次化底层特征,高效计算优化。多模态投影器实现了一个2层MLP连接器,配合像素反混洗来减少图像标记数量。这种设计在保持质量的同时显著提高了吞吐量。
投影器的主要功能包括将视觉特征映射到语言模型的特征空间,压缩图像表示以提高效率,保持跨模态信息的对齐,支持可变分辨率输入处理。编码器以原生分辨率处理图像,最高支持512×512像素,有效处理较小图像而无需上采样,并支持非标准长宽比而不产生失真。
对于大于512×512的图像,LFM2-VL采用智能分块策略。例如输入图像尺寸:H×W,分块大小:512×512,块数:ceil(H/512) × ceil(W/512)。重叠区域:32像素边缘重叠(可配置)
对于分辨率为 H×W 的图像:
patch_size = 16 # 每个patch的像素大小
tokens_per_patch = 1
num_patches_h = ceil(H / patch_size)
num_patches_w = ceil(W / patch_size)
total_tokens = num_patches_h × num_patches_w × tokens_per_patch
256×384图像:(256/16) × (384/16) = 16 × 24 = 384个patch → 96个标记(4:1压缩)
384×680图像:(384/16) × (680/16) = 24 × 43 = 1032个patch → 240个标记(约4.3:1压缩)
1000×3000图像:分块处理后总计约4080个patch → 1,020个标记(4:1压缩)
4.训练方法与数据策略
LFM2-VL的训练采用了创新的渐进式方法,以及多阶段训练策略
阶段一:基础模型继承(Model Inheritance)
权重初始化:直接继承LFM2基础模型的预训练权重
架构适配:添加视觉编码器和多模态投影器
冻结策略:初期冻结语言模型参数,只训练新增组件
稳定性保证:确保已有能力不退化
阶段二:联合中期训练(Joint Mid-training)LFM2-VL采用独特的数据比例调节策略:
训练进度 文本数据比例 图像数据比例 训练目标
0-20% 95% 5% 语言能力保持
20-40% 90% 10% 初步视觉融合
40-60% 80% 20% 模态对齐加强
60-80% 60% 40% 平衡训练
80-100% 30% 70% 视觉能力强化
阶段三:监督微调(Supervised Fine-tuning)
任务导向优化:针对特定的视觉语言任务进行优化
指令跟随训练:增强模型的指令理解和执行能力
人类反馈整合:结合人类反馈进行强化学习
安全性对齐:确保模型输出的安全性和准确性
视觉训练数据来自大规模开源数据集和内部合成视觉数据集的组合,选择时平衡了各种任务的覆盖范围。总体而言,LFM2-VL在大约1000亿个多模态标记上进行训练。
5.基准测试结果
LFM2-VL在多个公开的视觉语言基准测试中表现出色,尤其是高分辨率图像理解能力突出,多模态指令遵循性能优异,在其他任务中保持强劲性能。这些结果证明了LFM2-VL在保持高效的同时,并未牺牲模型的准确性和可靠性。
在推理速度方面,LFM2-VL展现出显著优势: LFM2-VL在GPU上实现了所有竞争对手中最快的性能。在典型工作负载(一张1024x1024图像配合简短提示如"详细描述这张图像",并生成100个输出标记)的默认设置下,LFM2-VL的运行速度比最快的可比模型快2倍,同时保持竞争性的准确率。
除了推理速度,LFM2-VL在内存使用方面也表现优异,这对于资源受限的设备部署至关重要。LFM2-VL在基于Apache 2.0的开放许可下发布。许可证允许您自由地将LFM2-VL模型用于学术和研究目的。如果您是较小的公司(收入低于1000万美元),也可以商业使用模型。
LFM2-VL的发布标志着视觉语言模型发展的一个重要里程碑。通过创新的架构设计、高效的训练策略和灵活的部署方案,LFM2-VL成功地在性能和效率之间找到了最佳平衡点。随着边缘计算、物联网和移动设备的不断发展,像LFM2-VL这样的高效视觉语言模型将发挥越来越重要的作用,推动整个视觉语言AI领域向更加实用、高效和普及的方向发展。
本文转载自鲁班模锤,作者:庞德公
