Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍 原创

发布于 2025-8-18 08:07
浏览
0收藏

过去几年,AI 模型变得越来越“臃肿”,从云端到本地的落地,几乎都被算力、延迟、能耗卡住了脖子。要想在手机、手表、甚至嵌入式设备上跑一个多模态大模型?在很多人看来,这几乎是天方夜谭。

但 Liquid AI 却不这么认为。

这家由 MIT CSAIL 前研究员创立的公司,刚刚发布了 LFM2-VL —— 一代全新的 视觉-语言基础模型,号称能在从智能手机、笔记本电脑到可穿戴设备的广泛硬件环境中高效运行,且延迟低、精度高、够灵活。

他们的目标很明确:让多模态 AI 真正跑得快、跑得省、还能跑得好

1. 从 LFM2 到 LFM2-VL:多模态的进化

LFM2-VL 是在一个多月前发布的 LFM2 架构 基础上升级而来。原本的 LFM2 就有个很不一样的设计思路——它并不像传统 Transformer 那样用固定权重,而是会根据每一次输入即时生成模型权重(他们称之为 Linear Input-Varying,LIV 系统)。

这样做的好处是,模型在推理时可以实时适配输入,减少冗余计算,从而在设备端跑得飞快。

这次的 LFM2-VL,直接把 LIV 系统扩展到 多模态

  • 既能处理文本,也能处理图像
  • 支持不同分辨率输入
  • 针对实际场景优化速度与精度的平衡

Liquid AI 说,他们的新模型在 GPU 推理速度上,比同类视觉-语言模型快了一倍以上,同时还能在常见评测中保持竞争力。

LFM2-VL亮点:

  • 基于LFM2:LFM2-VL-450M和LFM2-VL-1.6B的新高效型号,专为资源约束环境而设计
  • 与现有VLM相比,GPU的推理速度更快,同时保持竞争精度
  • 推理时间在推理时具有用户可调速度折衷的灵活体系结构
  • 本地分辨率可处理高达512×512,具有基于智能补丁的处理,用于较大图像,避免进行升级和失真

Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍-AI.x社区

2. 两个版本,满足不同“胃口”

为了适配不同算力环境,LFM2-VL 提供了两种大小的版本:

  1. LFM2-VL-450M
  • 参数量不到 5 亿
  • 专为极度受限的硬件环境设计,比如 IoT 设备、可穿戴设备
  1. LFM2-VL-1.6B
  • 16 亿参数
  • 功能更强,但依旧能在单 GPU 或移动设备上流畅运行

两者都支持最高 512×512 像素 的原生图像处理,避免失真或无意义的放大。 对于更大的图片,系统会用不重叠的分块(patching),并额外生成一个缩略图来提供全局信息,这样既能捕捉细节,又不丢整体语境。

3. 背后的技术哲学:超越 Transformer

Liquid AI 的野心不止是做个更快的模型,他们从创立之初就想摆脱 Transformer 一统天下的格局。

他们的 Liquid Foundation Models (LFM) 灵感来自 动力系统、信号处理和数值线性代数,能处理文本、视频、音频、时间序列等多种序列数据。

这种架构在推理过程中可以实时调整计算方式,既省内存,又能在低算力环境中运行。这也意味着它既能服务大型企业的云端场景,也能部署在边缘设备上。

4. 不只是模型:LEAP + Apollo

Liquid AI 不是只发模型,还在 2025 年 7 月推出了 Liquid Edge AI Platform (LEAP) —— 一个跨平台 SDK,让开发者能更方便地在移动和嵌入式设备上运行小型语言模型。

  • 跨系统支持:iOS、Android 都能用
  • 开放性:不仅能跑自家模型,还能跑开源的小模型
  • 轻量化:内置最小 300MB 的模型,现代手机随便放

配套的 Apollo App 可以让开发者完全离线测试模型,这对于隐私保护和低延迟执行非常关键。

这套组合拳反映了 Liquid AI 的战略——去云化、去中心化,让 AI 真正走到用户设备上

5. 架构亮点:速度与精度的平衡

LFM2-VL 采用了模块化架构,主要组件包括:

  • 语言模型骨干
  • SigLIP2 NaFlex 视觉编码器
  • 多模态投影器(Projector)

投影器里用了一个带 pixel unshuffle 的两层 MLP 连接器,可以减少图像 token 数量,直接提升吞吐量。

另外,用户还能调节:

  • 图像 token 最大数量
  • patch 分块参数

这样一来,开发者就能根据部署场景自己权衡速度与画质。

训练方面,Liquid AI 使用了约 1000 亿多模态 token,数据来自开放数据集和自家生成的合成数据。

Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍-AI.x社区

6. 性能与评测

在常见的视觉-语言任务中,LFM2-VL-1.6B 拿下了不俗成绩:

  • RealWorldQA:65.23
  • InfoVQA:58.68
  • OCRBench:742

更重要的是,在 1024×1024 图像 + 短提示的推理测试中,它是同类中 GPU 推理最快 的。

这对于需要实时响应的多模态应用(比如 AR 眼镜、工业检测、车载系统)来说,意义不小。

Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍-AI.x社区

Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍-AI.x社区

Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍-AI.x社区

7. 开源与商用许可

LFM2-VL 已经上架 Hugging Face,并提供了 Colab 微调示例代码,兼容 Hugging Face Transformers 和 TRL。

它采用了自家的 LFM1.0 许可证,官方称参考了 Apache 2.0 原则,但细则还未公布。 已知的是:

  • 商业使用可以,但有条件
  • 年收入低于 1000 万美元的公司与大企业条款不同

这显然是 Liquid AI 想平衡开源共享和商业利益的一种尝试。

8. 总结:多模态 AI 的“轻装化”方向

LFM2-VL 不只是一个速度更快的多模态模型,它其实代表了一个趋势:让强大的 AI 不再依赖云端,真正落地到本地设备

它的意义在于:

  1. 降低门槛:开发者不需要高算力服务器,也能部署多模态应用
  2. 提升隐私:数据无需上传云端,减少泄露风险
  3. 实时性强:低延迟意味着更顺畅的交互体验
  4. 成本可控:减少推理成本,尤其是在长期运行场景

从 LIV 系统到 LEAP 平台,Liquid AI 正在把“边缘 AI”做成一个完整生态。如果他们的路线走得通,我们可能会迎来一个人人都能用多模态 AI的时代。

相关资源

  • 模型下载与文档:Hugging Face LFM2-VL
  • LEAP SDK 详情:Liquid AI 官网


本文转载自Halo咯咯    作者:基咯咯


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-8-18 08:07:09修改
收藏
回复
举报
回复
相关推荐