
回复
MoCa 通过“持续预训练 + 异构对比学习”两步,把单向注意力 VLM 升级为强大的双向多模态编码器。3B 模型即可超越 7B 基线,在 MMEB、ViDoRe-v2 等基准刷新纪录,并显著降低对配对标注的依赖。
TLDR:首次将 continual pre-training 引入双向多模态表征;无标注数据也能练出 SOTA 嵌入。
Paper | https://arxiv.org/abs/2506.23115
Home | https://haon-chen.github.io/MoCa/
因果注意力的单向预测让 VLM 难以捕获深层跨模态语义,且对高质量图文对高度依赖,扩展、泛化及成本都受限。MoCa 旨在:(1) 打破单向束缚;(2) 吞掉无标注数据;(3) 让小模型也能跑大任务。
方案 | 训练数据 | 注意力 | 泛化 | 成本 |
mmE5 / VLM2Vec | 高质图文对 | 单向 | 一般 | 高 |
MoCa | 任意图文流 | 双向 | 强 | 低 |
MoCa 证明:生成式 VLM 也能当检索王牌。你看好这条路线吗?
本文转载自AI-PaperDaily,作者:MIRIX AI