针对高质量、精确对齐的图像 - 文本对稀缺,提出一种新的数据生成管道 SynthVLM ,用于生成图像 - caption 对:SynthVLM - 100K,并通过微调模型,SynthVLM-100K 上预训练的模型就超越了依赖 LLaVA - 558K 的基准方法,方法简单直接,下面看看。


方法
SynthVLM通过两个步骤构建高质量的图像-文本数据集:

SynthVLM 数据合成方法的流水线如下:首先,筛选高质量的图像-标题对;接着,合成高质量数据,并依据 CLIP 得分进行后续筛选。
1、合成数据集构建
- 数据来源:为确保caption的多样性,结合了人工生成和模型生成的caption。人工生成的caption主要来自LAION、CC和SBU,模型生成的caption则利用BLIP2对DataComp数据集中的图像重新生成。
- caption筛选:为保证数据集质量,先去除低质量caption,如广告、重复描述和语法错误较多的内容。筛选过程借助ChatGPT,并结合N-grams、Perplexity等统计指标,仅保留高质量、信息丰富的caption用于训练。接着,计算这些caption及其相应原始图像的CLIPScore,选择得分前40%的图像-caption对,组成100万caption的候选集,此步骤有效减少了存储开销和处理时间。
- 图像生成:在筛选出100万高质量caption后,使用Stable Diffusion XL(SDXL)模型生成图像。SDXL能够高效生成高质量、高分辨率(1024x1024)的图像,有效解决了现有数据集图像分辨率低的问题,提升了训练数据的质量和实用性。
2、合成数据选择
- 评估指标:为更好地确保图像与文本描述的对齐,继续使用CLIPScore评估图像与文本的对齐程度。由于生成的图像分辨率为1024×1024,需调整为336×336以适配CLIP模型,这一过程可能导致图像质量损失,因此引入结构相似性指数(SSIM)来衡量图像质量。最终,通过加权求和的方式将CLIPScore和SSIMScore结合,如下:
λ设为0.5以平衡两者的贡献。 - 数据筛选:对100万合成的图像-caption对计算CLIPScore和SSIMScore,选择得分最高的10万对,这些对代表了图像和caption之间最准确、有意义的匹配,从而构建出高质量、高度对齐的合成数据集。

用于字幕过滤的指标与提示
实验性能



参考文献:SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models,https://arxiv.org/pdf/2407.20756
本文转载自大模型自然语言处理 作者:llmnlp