MoCa:单向 → 双向,多模态编码一步到位

发布于 2025-7-23 06:33
浏览
0收藏

摘要

MoCa 通过“持续预训练 + 异构对比学习”两步,把单向注意力 VLM 升级为强大的双向多模态编码器。3B 模型即可超越 7B 基线,在 MMEB、ViDoRe-v2 等基准刷新纪录,并显著降低对配对标注的依赖。

TLDR:首次将 continual pre-training 引入双向多模态表征;无标注数据也能练出 SOTA 嵌入。

Paper | https://arxiv.org/abs/2506.23115

Home  | https://haon-chen.github.io/MoCa/

为什么要做 MoCa?

因果注意力的单向预测让 VLM 难以捕获深层跨模态语义,且对高质量图文对高度依赖,扩展、泛化及成本都受限。MoCa 旨在:(1) 打破单向束缚;(2) 吞掉无标注数据;(3) 让小模型也能跑大任务。

双阶段框架

MoCa:单向 → 双向,多模态编码一步到位-AI.x社区

  1. Modality-aware Continual Pre-training (CPT)
  • 文本 MLM + 图像 MAE 联合重建。
  • 30B 无标注 token→3B 模型学会双向推理。
  1. Heterogeneous Contrastive Fine-tuning (CL)
  • 长文档、多图文、纯文本混批训练。
  • 任务感知采样 + 硬负挖掘,判别力倍增。

MoCa:单向 → 双向,多模态编码一步到位-AI.x社区

核心组件亮点

  • 跨模态双向注意力:深度语义对齐。
  • Scaling Law:数据越多→性能越稳。
  • 均值池化推理:延迟低、部署易。

对比传统方案

方案

训练数据

注意力

泛化

成本

mmE5 / VLM2Vec

高质图文对

单向

一般

MoCa

任意图文流

双向

实验速览

MoCa:单向 → 双向,多模态编码一步到位-AI.x社区

MoCa:单向 → 双向,多模态编码一步到位-AI.x社区

  • MMEB:均分 71.5,较 mmE5 ↑ 1.7。
  • 小模型胜出:20B CPT 后,3B≈7B 基线。
  • 长文检索:ViDoRe-v2、DocVQA 全面领先。

展望

  • 跨语言多模态扩展(视频、音频)。
  • 更高效的 CPT 调度,进一步减算力。
  • 与向量数据库深度结合,落地海量检索场景。

MoCa 证明:生成式 VLM 也能当检索王牌。你看好这条路线吗?

本文转载自​AI-PaperDaily​,作者:MIRIX AI

收藏
回复
举报
回复
相关推荐