
BLIP3-o统一图像生成与理解,多模态融合趋势显现
需要解决的问题
统一图像理解和生成:
- 以前的方案没有融合图像理解和生成量大任务,例如:在生成复杂场景、特定对象或高质量图像时表现不足,同时在图像理解和生成任务之间缺乏有效的协同训练机制。
提升生成质量和效率:
- 传统的基于VAE(变分自编码器)的图像表示方法在生成图像时存在分辨率限制和训练效率低下的问题
- 在统一框架中高效地生成高质量图像并保持图像理解能力,是需要解决的关键问题之一。
核心思想
- 融合自回归模型和扩散模型:
借鉴了OpenAI的GPT-4o图像生成架构,采用自回归模型生成中间视觉特征,再通过扩散模型生成最终图像。
这种结合方式在充分发挥了自回归模型在语义理解和扩散模型在高质量图像生成方面的优势。
- 统一图像表示和任务空间:
使用CLIP(Contrastive Language-Image Pre-training)模型的图像特征作为目标表示,将图像理解和图像生成任务统一到同一个语义空间中。
确保模型在处理两个任务时能够共享语义信息,提高任务之间的协同性和一致性。
- 优化训练策略:
通过对比不同的训练策略,包括联合训练和顺序训练,选择了顺序训练方法。
即先训练图像理解模块,冻结其参数后再训练图像生成模块,以避免任务之间的干扰并充分利用预训练的语言模型能力。
技术亮点
- CLIP + Flow Matching架构:
在图像生成模块中,采用CLIP作为图像编码器,结合流匹配(Flow Matching)损失函数来训练扩散模型。
CLIP能够提取丰富的语义特征,而流匹配损失函数能够更好地捕捉图像分布,从而生成更高质量和多样化的图像。
- 高效的扩散变换器(DiT):
基于Lumina-Next模型的扩散变换器架构,引入了3D旋转位置嵌入(Rotary Position Embedding),能够有效地编码时空结构,同时采用夹心归一化(Sandwich Normalization)和分组查询注意力(Grouped-Query Attention),提高了模型的稳定性和生成效率。
- 高质量指令微调数据集:
精心策划了一个包含6万个高质量指令-图像对的数据集(BLIP3o-60k),通过GPT-4o生成多样化场景、对象和手势的描述,用于指令微调。
训练步骤
- 图像理解模块训练:
使用预训练的Qwen 2.5 VL模型作为图像理解模块的骨干网络,跳过图像理解任务的训练阶段,直接构建图像生成模块。
- 图像生成预训练:
数据准备:对于8B模型,结合约2500万开源数据(如CC12M、SA-1B和JourneyDB)和额外的3000万专有图像,所有图像的描述由Qwen2.5-VL-7B-Instruct生成,平均长度为120个标记。同时,为了提高对不同长度提示的泛化能力,还混入了约10%(600万)较短的描述(约20个标记)。对于4B模型,仅使用开源数据进行训练。
模型训练:冻结Qwen 2.5 VL骨干网络,训练扩散变换器模块。通过自回归模型生成中间视觉特征,再利用扩散变换器和流匹配损失函数来生成接近真实CLIP特征的图像特征,最终通过扩散解码器生成图像。
- 指令微调:针对预训练阶段未能充分覆盖的复杂人类手势、常见物体、地标和简单文本等类别,通过GPT-4o生成约10k提示-图像对,创建针对性的数据集,对模型进行指令微调,以提高模型在这些领域的生成能力和视觉审美质量。
实验结果
- 图像理解任务:BLIP3-o 8B模型在多个图像理解基准测试(如VQAv2、MMBench、SeedBench等)中取得了最佳性能,显示出其在图像理解方面的强大能力。
- 图像生成任务:在图像生成基准测试中,BLIP3-o 8B模型在GenEval(衡量提示对齐)上得分为0.84,在WISE(评估世界知识推理能力)上得分为0.62,虽然在DPG-Bench上的得分较低,但通过人类研究发现,BLIP3-o在视觉质量和提示对齐方面均优于Janus Pro 7B模型,表明其生成的图像更符合人类偏好且具有更好的视觉效果。
- 指令微调的效果:通过仅使用60k提示-图像对进行指令微调,模型在提示对齐和视觉审美方面取得了显著提升,许多生成伪影也得到了快速减少,证明了指令微调数据集的有效性。
https://arxiv.org/pdf/2505.09568
本文转载自CourseAI,作者:CourseAI
