
多模态图像生成新宠 Janus-4o?ShareGPT-4o-Image 打造数据集新标杆,将图像生成与 GPT-4o 对齐
ShareGPT-4o-Image 是一个大规模、高质量的图像生成数据集,其中所有图像均由 GPT-4o 的图像生成功能生成。该数据集旨在将开放式多模态模型与 GPT-4o 在视觉内容创作方面的优势相结合。它包含 45,000 个文本转图像和 46,000 个文本转图像样本,使其成为增强多模态模型在图像生成和编辑任务中的实用资源。
Janus-4o是一款多模态 LLM,能够进行文本转图像和文本+图像转图像的生成。它基于 Janus-Pro,使用ShareGPT-4o-Image数据集进行微调。与 Janus-Pro 相比,Janus-4o新增了文本+图像转图像的生成功能,并在文本转图像生成方面取得了显著改进。
数据集概览
ShareGPT-4o-Image 共包含 91,000 个 GPT-4o 图像生成样本,分类如下:
- 文本转图像 45,717
- 文本加图像转图像 46,539
相关链接
- 代码:https://github.com/FreedomIntelligence/ShareGPT-4o-Image
- 模型:https://huggingface.co/FreedomIntelligence/Janus-4o-7B
- 论文:https://arxiv.org/pdf/2506.18095
论文介绍
多模态生成模型的最新进展已解锁了逼真的、指令对齐的图像生成,然而像 GPT-4o-Image 这样的领先系统仍然是专有的,无法访问。为了使这些功能大众化,论文推出了 ShareGPT-4o-Image,这是第一个包含 45,000 个文本转图像和 46,000 个文本加图像转图像数据的数据集,所有这些数据均使用 GPT-4o 的图像生成功能合成,以提炼其先进的图像生成能力。利用此数据集,论文开发了 Janus-4o,这是一个多模态大型语言模型,能够进行文本转图像和文本加图像转图像的生成。Janus-4o 不仅在其前身 Janus-Pro 的基础上显著改进了文本转图像的生成能力,而且还新增了文本加图像转图像的功能。值得注意的是,它在从零开始的文本和图像到图像生成方面取得了令人印象深刻的性能, 仅使用了 91K 合成样本,并在一台 8×A800 GPU 机器上进行了 6 小时的训练。我们希望 ShareGPT-4o-Image 和 Janus-4o 的发布能够促进照片级逼真、指令对齐图像生成的开放研究。
方法概述
ShareGPT-4o-Image 提升图像生成性能。 使用 ShareGPT-4o-Image 对 Janus-Pro 进行微调,生成 Janus-4o,其图像生成性能显著提升。Janus-4o 还支持文本和图像到图像的生成,仅用 91,000 个训练样本就超越了其他基准。
数据集构建流程图。
Janus-4o 模型概述。 该模型基于 Janus-Pro,并通过在 ShareGPT-4o-Image 上进行微调构建而成。它融入了增强功能,以支持文本和图像到图像的生成。文本到图像和文本和图像到图像的任务均采用联合训练。
实验结果
结论
ShareGPT-4o-Image是首个能够捕捉 GPT-4o 在文本转图像和文本转图像生成方面先进图像生成能力的大规模数据集。基于此数据集,论文开发了 Janus-4o,这是一个能够从纯文本或图像文本组合输入生成高质量图像的机器学习模型 (MLLM)。Janus-4o 在文本转图像生成方面取得了显著提升,并在文本转图像任务中取得了极具竞争力的结果,彰显了 ShareGPT4o-Image 的高质量和实用性。得益于基于 MLLM 的自回归图像生成的高效性,Janus-4o 仅需 6 小时即可在一台 8×A800 GPU 机器上完成训练,并以极低的计算量实现显著的性能提升。
本文转载自AIGC Studio,作者:AIGC Studio
