MoCa：单向 → 双向，多模态编码一步到位

AIPaperDaily

发布于 2025-7-23 06:33

浏览

0收藏

摘要

MoCa 通过“持续预训练 + 异构对比学习”两步，把单向注意力 VLM 升级为强大的双向多模态编码器。3B 模型即可超越 7B 基线，在 MMEB、ViDoRe-v2 等基准刷新纪录，并显著降低对配对标注的依赖。

TLDR：首次将 continual pre-training 引入双向多模态表征；无标注数据也能练出 SOTA 嵌入。

Paper | https://arxiv.org/abs/2506.23115

Home | https://haon-chen.github.io/MoCa/

为什么要做 MoCa？

因果注意力的单向预测让 VLM 难以捕获深层跨模态语义，且对高质量图文对高度依赖，扩展、泛化及成本都受限。MoCa 旨在：(1) 打破单向束缚；(2) 吞掉无标注数据；(3) 让小模型也能跑大任务。

双阶段框架

MoCa：单向 → 双向，多模态编码一步到位-AI.x社区

Modality-aware Continual Pre-training (CPT)

文本 MLM + 图像 MAE 联合重建。
30B 无标注 token→3B 模型学会双向推理。

Heterogeneous Contrastive Fine-tuning (CL)

长文档、多图文、纯文本混批训练。
任务感知采样 + 硬负挖掘，判别力倍增。

MoCa：单向 → 双向，多模态编码一步到位-AI.x社区

核心组件亮点

跨模态双向注意力：深度语义对齐。
Scaling Law：数据越多→性能越稳。
均值池化推理：延迟低、部署易。

对比传统方案

方案	训练数据	注意力	泛化	成本
mmE5 / VLM2Vec	高质图文对	单向	一般	高
MoCa	任意图文流	双向	强	低

实验速览

MoCa：单向 → 双向，多模态编码一步到位-AI.x社区

MMEB：均分 71.5，较 mmE5 ↑ 1.7。
小模型胜出：20B CPT 后，3B≈7B 基线。
长文检索：ViDoRe-v2、DocVQA 全面领先。

展望

跨语言多模态扩展（视频、音频）。
更高效的 CPT 调度，进一步减算力。
与向量数据库深度结合，落地海量检索场景。

MoCa 证明：生成式 VLM 也能当检索王牌。你看好这条路线吗？

本文转载自AI-PaperDaily，作者：MIRIX AI

标签

MoCa

多模态

编码

相关推荐

只需一步！One-Step图像转换来了！亲测效果惊艳！

angel • 6391浏览 • 0回复
生成式视频的下一步是什么

lintoms • 3787浏览 • 0回复
Google总监提出生成式AI应用架构和成熟度模型，一步步指导进阶

Syrupup • 7029浏览 • 0回复
RAPTOR 检索树再次进一步提升RAG性能的设计思路

AIGC观察者 • 5632浏览 • 0回复
如何确保Agent系统每一步都符合预期？

探索AGI • 8366浏览 • 1回复
具身智能又进一步！卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取

angel • 3997浏览 • 0回复
LlamaIndex结合DSPy，进一步优化RAG系统

小虎哦哦 • 4263浏览 • 0回复
教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

angel • 3468浏览 • 0回复
让 ChatGPT 自动执行你的想法，向代理时代迈出的小小一步！

老蛀虫 • 4432浏览 • 0回复
只需一步！上交&哈佛提出FluxSR：首个基于12B+大模型的单步扩散真实世界超分模型

angel • 5053浏览 • 0回复
如何高效转换PDF为Markdown：构建优质Graph RAG的第一步

Halo咯咯 • 3716浏览 • 0回复
利用LLM做论文review到哪一步了？来看看DeepReview吧！

arnoldzhw • 4920浏览 • 0回复
这个AI系统能给你的每一步解题过程打分

sbf_2000 • 3056浏览 • 0回复
ScholarCopilot：奇怪的文章，好像 AI 写论文又进一步了

芝士AI吃鱼 • 2070浏览 • 0回复
何凯明团队新作：均值流用于一步生成建模

AIRoobt • 2085浏览 • 0回复
一步步带你用LoRA微调大模型-执行篇

码农随心笔记 • 2189浏览 • 0回复
“闪存普惠”如何一步到位？华为在商业市场破题

骨灰级AI爱好者 • 1375浏览 • 0回复
为什么让模型"一步步思考"能显著提升推理能力？

Syrupup • 1539浏览 • 0回复
快手端到端生成式搜索框架OneSearch，让搜索“一步到位”！

快手技术 • 1982浏览 • 0回复

AIPaperDaily

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

MoCa：单向 → 双向，多模态编码一步到位

摘要

为什么要做 MoCa？

双阶段框架

核心组件亮点

对比传统方案

实验速览

展望

目录