回复
MoCa:单向 → 双向,多模态编码一步到位
摘要
MoCa 通过“持续预训练 + 异构对比学习”两步,把单向注意力 VLM 升级为强大的双向多模态编码器。3B 模型即可超越 7B 基线,在 MMEB、ViDoRe-v2 等基准刷新纪录,并显著降低对配对标注的依赖。
TLDR:首次将 continual pre-training 引入双向多模态表征;无标注数据也能练出 SOTA 嵌入。
Paper | https://arxiv.org/abs/2506.23115
Home | https://haon-chen.github.io/MoCa/
为什么要做 MoCa?
因果注意力的单向预测让 VLM 难以捕获深层跨模态语义,且对高质量图文对高度依赖,扩展、泛化及成本都受限。MoCa 旨在:(1) 打破单向束缚;(2) 吞掉无标注数据;(3) 让小模型也能跑大任务。
双阶段框架

- Modality-aware Continual Pre-training (CPT)
- 文本 MLM + 图像 MAE 联合重建。
- 30B 无标注 token→3B 模型学会双向推理。
- Heterogeneous Contrastive Fine-tuning (CL)
- 长文档、多图文、纯文本混批训练。
- 任务感知采样 + 硬负挖掘,判别力倍增。

核心组件亮点
- 跨模态双向注意力:深度语义对齐。
- Scaling Law:数据越多→性能越稳。
- 均值池化推理:延迟低、部署易。
对比传统方案
方案 | 训练数据 | 注意力 | 泛化 | 成本 |
mmE5 / VLM2Vec | 高质图文对 | 单向 | 一般 | 高 |
MoCa | 任意图文流 | 双向 | 强 | 低 |
实验速览


- MMEB:均分 71.5,较 mmE5 ↑ 1.7。
- 小模型胜出:20B CPT 后,3B≈7B 基线。
- 长文检索:ViDoRe-v2、DocVQA 全面领先。
展望
- 跨语言多模态扩展(视频、音频)。
- 更高效的 CPT 调度,进一步减算力。
- 与向量数据库深度结合,落地海量检索场景。
MoCa 证明:生成式 VLM 也能当检索王牌。你看好这条路线吗?
本文转载自AI-PaperDaily,作者:MIRIX AI
赞
收藏
回复
相关推荐

















