
T2I进入“思维链”时代!港中文等发布史诗级600万数据集:128张A100历时4个月构建完成!
论文链接:https://arxiv.org/pdf/2509.09680
模型链接:https://github.com/rongyaofang/prism-bench
Dataset链接:https://huggingface.co/datasets/LucasFang/FLUX-Reason-6M
Git 链接:https://flux-reason-6m.github.io/
亮点直击
- FLUX-Reason-6M:一个里程碑式的数据集。首个专为推理设计的 600 万规模 T2I 数据集,包含 2000 万条双语描述,首创的生成式“思维链”提示。该数据集使用 128 张 A100 显卡,历时 4 个月构建,旨在成为下一代 T2I 模型基础数据集。
- PRISM-Bench:全新的评估标准。建立了一个包含七个子任务的综合性基准测试,采用 GPT-4.1 和 Qwen2.5-VL-72B 进行细致且稳健的评估。
- 来自大规模基准测试的可操作洞察。对主流模型进行了广泛且严格的评估,揭示了不同模型之间的差距与潜在的改进方向,为未来研究提供了清晰的路线图。推动 T2I 革命的普惠化。
图 1:使用所提出的 PRISM-Bench 评估最先进的文本到图像模型
总结速览
解决的问题
开源文本生成图像(T2I)模型在发展过程中面临以下关键问题:
- 缺乏大规模、以推理为核心的数据集,难以训练具备复杂推理能力的生成模型;
- 缺乏全面、系统的评估基准,难以准确衡量模型在真实应用中的表现;
- 与闭源系统相比,性能存在显著差距,限制了开源模型的实际应用与研究发展。
提出的方案
为解决上述问题,作者提出了两个核心方案:
- FLUX-Reason-6M 数据集:
- 包含600 万张高质量图像和2000 万条中英文双语描述;
- 以六大图像特征(想象力、实体、文字渲染、风格、情感、构图)进行组织;
- 引入生成式思维链(GCoT),用于模拟复杂图像生成过程中的推理步骤。
- PRISM-Bench 评估基准:
- 包含7 个子任务,覆盖文本对齐、图像美学、长文本生成等多个维度;
- 使用先进的视觉-语言模型(如 GPT-4.1 和 Qwen2.5-VL-72B)进行评估;
- 设计精细提示词,强调人类对齐的评估标准。
应用的技术
- 生成链式思维(GCoT)设计:将图像生成过程拆解为可解释的推理步骤,提升模型的推理能力与可控性;
- 大规模数据生成与处理:使用 128 张 A100 GPU,耗时 4 个月,完成 15,000 GPU 天的数据构建;
- 多语言支持:提供中英文双语描述,增强模型的跨语言泛化能力;
- 自动化评估系统:基于 GPT-4.1 和 Qwen2.5-VL-72B 的视觉-语言模型,进行细粒度、稳健的模型评测;
- 广泛模型测试:对 19 个主流模型进行统一评估,确保结果具备代表性和实用性。
达到的效果
- 构建了首个专为推理设计的 T2I 数据集,为模型学习复杂生成逻辑提供了坚实基础;
- 建立了系统性、多维度的评估标准,填补了开源模型评估的空白;
- 揭示了主流模型在推理生成中的性能差距与改进方向,为后续研究提供了明确路径;
- 推动了 T2I 研究范式转变,为构建更智能、更具语义理解与表达能力的图像生成系统奠定基础。
FLUX-Reason-6M 数据集
现有开源的文本生成图像(T2I)数据集的核心限制在于,它们缺乏用于教授模型复杂推理的结构化信号。它们通常是平铺直叙的图像-文本对集合,仅描述图像中包含的内容,而非图像为何以特定方式构图。近期的 GoT 工作提供了一个包含 900 万样本的数据集,但该数据集主要由现有资源(如 Laion-Aesthetics、JourneyDB)拼接而成,导致图像内容与风格分布不一致,质量参差不齐。这些问题源于不同源数据集之间采集与标注协议的差异。为了解决这一问题,本文设计了 FLUX-Reason-6M 数据集,其目标不仅是收集高质量图像,更是构建一个系统化、原则性强的框架,用于学习 T2I 推理的基本规则。整体数据整理流程如下图 3 所示。
架构设计:六大特征与生成思维链
多维框架设计
FLUX-Reason-6M 的核心在于其多维度的架构设计。本文识别并定义了六个对现代 T2I 模型至关重要的关键特征。这些特征并非互斥,而是有意设计为相互重叠,以反映复杂场景合成的多面性,从而为模型提供更丰富、更稳健的训练信号。六大核心推理特征包括:
- 想象力:该类别包含代表超现实、幻想或抽象概念的图像与描述。提示词描绘违反现实物理规律或将不同概念新颖组合的场景(例如:“一个由玻璃构成的城市,光之河在其中流淌”)。生成图像展示了富有创造力的合成,为模型提供超越字面理解的数据。
- 实体:聚焦于基于知识的精确描绘,包含图像-文本对,强调对现实世界中具体物体、生物或命名实体的准确细致生成。该类别中的描述通常包含丰富的属性信息(例如:“梅西在世界杯决赛中带球突破防守”),为模型提供高保真、知识感知的生成训练数据。
- 文字渲染:为解决生成模型中的已知弱点,该类别包含成功且清晰地融合英文文本的图像。对应描述中明确指示文本的内容、风格与在图像中的位置(例如:“一个霓虹灯牌,上面写着 ‘FLUX-Reason-6M’”)。这为模型在排版控制方面提供了直接、干净的数据支持。
- 风格:该特征汇集了大量多样的艺术与摄影风格。描述中明确提及特定的艺术流派(如立体主义、印象派)、视觉技术(如长曝光、鱼眼镜头)甚至著名艺术家的美学风格。图像作为这些风格成功应用的高质量示例。
- 情感:该类别包含旨在将抽象情感概念与具体视觉表现相连接的图像-文本对。描述使用唤起情感的语言来描绘一种情绪、感觉或氛围(例如:“一种宁静孤独的感觉”,“一个混乱而充满欢乐的集市场景”)。对应图像将这些无形的概念转化为视觉线索,如色彩搭配、光照效果以及主体表情。
- 构图:该类别聚焦于场景中物体的精确排列与交互。描述中使用明确的构图语言,包括介词(例如:under,behind,next to)和相对位置表达。图像则清晰展示了这些复杂空间指令如何被正确执行。
本文数据集的一大亮点是其多标签设计。例如,“埃菲尔铁塔以梵高《星夜》的风格呈现”这张图像会同时被归类为实体(准确描绘地标)和风格(模仿艺术家风格)。这种有意的重叠设计确保模型能够学习融合不同类型的推理方式,就如同一位人类艺术家那样。
生成思维链
本数据集的核心是生成思维链(GCoT)的整合。标准的图像描述仅描述图像内容,而 GCoT 描述则阐明图像是如何以及为何被构建出来的。如下图 2 所示,这种详细的逐步推理链条解构了最终图像的语义与构图逻辑,为训练提供了强有力的中间监督信号。通过学习这些显式的推理路径,模型不仅可以建立词汇与像素之间的关联,还能理解构成复杂图像的底层结构与艺术选择。以 GCoT 原则为中心的这一结构化多维框架,构成了整个 FLUX-Reason-6M 数据集的概念基础。
构建高质量视觉基础
本文目标是建立一个高质量的视觉基础,以避免网页抓取数据中图像质量参差不齐的问题。近期的生成模型已展现出生成高质量图像的能力。因此,本文选择了功能强大的 FLUX.1-dev 作为合成引擎,利用其先进能力生成细节精致、审美一致的图像。本文结合视觉-语言模型与图像,对 Laion-Aesthetics 数据集中的描述进行重写,从而生成高质量的描述,提供广泛而多样的生成起点。
然而,这一策略导致数据集中两个特征严重不足:想象力(Imagination) 与 文字渲染(Text rendering)。为纠正这一偏差并确保数据集的平衡与全面性,本文实施了如下增强策略:
渐进式想象力培养
对于“想象力”类别,如日常生活中罕见场景,启动了一个渐进式生成流程,以产出极具创造性与新颖性的描述。首先,使用 Gemini-2.5-Pro 生成一组多样化的 200 个高概念、富有想象力的初始提示词。在第二阶段,采用创造性扩展技术:随机抽取其中 10 个提示词,并将其作为上下文示例输入 Qwen3-32B。为最大化创造性输出并鼓励新颖联想,提高了模型的温度参数。该过程产出了大量极具创意的描述,推动了生成可能性的边界。通过 FLUX.1-dev 渲染后,这些描述为本文的数据集注入了超现实与幻想的视觉图像。文本渲染的数据挖掘-生成-合成流程
为了解决文本渲染数据的稀缺问题,本文开发了一个三阶段流程,用于采集并再生成高质量的文本数据。
首先,使用强大的 Qwen2.5-VL-32B 系统性地挖掘 Laion-2B 数据集,识别出包含清晰可辨文字的图像。
其次,对于每一张经过验证的富文本图像,再次利用 Qwen-VL 的描述能力,生成高保真度的新描述。这些描述被精心设计,用于精确描述图像中的文本内容、视觉呈现方式以及上下文关系。
最后,这些以文本为中心的描述被输入到 FLUX.1-dev 中。最终的合成步骤生成了高质量图像,其中渲染的文本与精炼后的描述直接对应,形成了文本渲染类别的高质量训练语料。
这种结合高质量基础与针对性增强策略的全面合成工作,最终产出了一个包含 800 万张图像的庞大图集。该集合为后续的筛选、多维分类与密集标注流程提供了优质原材料,确保最终的 FLUX-Reason-6M 数据集中的每一张图像都符合严格的质量与语义相关性标准。
基于视觉语言模型的质量筛选与多维评分
为了将最初合成的 800 万张图像转化为精心策划的资源,本文设计并执行了一个多阶段、基于视觉语言模型(VLM)的流程,用于系统性地筛选、分类与验证每一张图像。该流程确保 FLUX-Reason-6M 中的所有数据都具备卓越的视觉质量与精确的类别相关性。
基础质量筛选
第一阶段聚焦于图像的视觉完整性。本文使用 Qwen-VL 作为自动化质量检测器,其任务是分析每张图像的基本清晰度与结构一致性。该步骤识别并剔除了存在以下问题的图像样本:过度模糊、干扰性噪声,或在物体与人物结构上存在显著失真的图像。通过清除这些低质量样本,本文为后续更复杂的标注与筛选阶段建立了一个具备审美与结构完整性的图像基础。
稳健的多维分类
下一个关键步骤是将数据集组织为多维结构。本文利用 Qwen-VL 对每张已筛选图像按照六个预定义特征进行评估:Imagination、Entity、Text rendering、Style、Affection 和 Composition。
本文并未采用简单的二元分类,而是引入量化评分系统,由模型为每个特征分配一个从 1 到 10 的相关性评分。本文为每个特征精心设定了校准阈值,最终确定图像的类别。该系统专为多标签分类设计,能够准确识别一张图像同时属于多个特征(例如 Entity 和 Style)的情况。
文本渲染的字体质量筛选
本文发现,即使是高质量的生成模型也可能产生难以辨认或语境错误的文本。考虑到字体生成的独特挑战,为 Text rendering 类别专门引入了一个特化的筛选阶段。为了确保数据集为这一困难任务提供清晰可靠的信号,本文再次使用 Qwen-VL 作为严格的字体质量检测器。它会对被标记为 Text rendering 的图像进行详细扫描,并剔除所有包含低对比度、扭曲或无意义文本的实例。此关键步骤确保了该特征下数据的最高保真度。
在最初的 800 万候选图像中,约有 600 万张图像通过了严格的质量与相关性标准。这些图像已通过质量验证,并被标注上与本文六个特征直接对应的丰富标签,为最终的高密度标注阶段做好准备。
基于视觉语言模型的密集描述与推理框架构建
在建立起高质量分类图像基础之后,接下来的关键阶段是生成丰富的多维描述,并构建生成式思维链(generation chain-of-thoughts),在数据集中嵌入推理的种子。
这一过程代表了从传统描述范式的转变,超越了简单的描述性文本,构建出一个结构化且具备推理意识的标注框架,明确引导模型如何分解并理解复杂的视觉场景。
特定类别的密集描述
本文的标注策略核心在于利用视觉语言模型(如 Qwen-VL)先进的多模态推理能力,为每张图像生成高度针对性的、特定类别的描述。不同于传统方法生成通用描述,本文的方法生成详尽的描述,强调图像所体现的特定特征。
例如,在处理属于 Entity 类别的图像时,Qwen-VL 被指示生成以准确识别和详细描述场景中具体物体、地标或人物为优先的描述。相反,对于 Style 类别的图像,生成的描述则强调艺术技法、视觉美学和定义艺术风格的元素。
这种类别感知的描述生成确保每条标注都作为有针对性的训练信号,教会模型识别并表达不同类别视觉内容所需的具体类型。由于每张图像可能被分配到多个类别,该过程最终形成一组丰富的并行描述,每条描述都提供理解图像内容与结构的独特视角。由此产生的标注密度远超传统数据集。
生成思维链合成
本文标注流程的核心步骤是结合生成思维链(GCoT),这是 FLUX-Reason-6M 的主要贡献与关键特征。
为了构建这些推理过程,本文采用一种有意的融合策略:将图像及其所有类别特定描述作为完整上下文输入 Qwen-VL。该全面输入使模型能够合成详细的逐步推理链,不仅澄清图像中存在的元素,还揭示这些元素如何相互作用、特定布局为何存在,以及控制场景构图的构图与语义原则。
最终生成的 GCoT 描述是密集、详细的叙述性文本,作为显式的推理模板。它们逐层解构图像的逻辑,解释空间关系、艺术选择、色彩协调、情感基调与构图平衡。相比传统描述,这些描述为模型提供了前所未有的洞察力,帮助其理解复杂图像合成背后的创意与逻辑过程。
可泛化的原始描述整合与大规模双语发布
原始描述整合
为了拓展超出本文精心设计的推理信号的泛化能力,本文在 Laion-Aesthetics 中重新整合那些能可靠描述 FLUX.1-dev 合成图像的高质量原始描述。具体而言,本文使用 Qwen-VL 作为对齐评估器,对每条原始 Laion 描述与其配对的 FLUX 图像之间的语义对应关系进行评分。得分超过校准阈值的描述将被保留作为额外监督信号,从而确保涵盖多样的自然语言表达,同时避免图文偏离。在整合原始描述、特定类别描述和 GCoT 标注后,语料库总计包含 2000 万条独特描述。
全面的双语翻译
为了让这一强大资源更易获取,并促进国际合作,本文对整个描述语料库进行了全面的中文翻译。利用 Qwen 的先进翻译能力,所有原始描述、特定类别描述与 GCoT 描述均被翻译。然而,对于 Text rendering 类别,本文实施了一项关键的内容保留策略。为了保持任务的语义完整性,图像中用于渲染的特定英文文本在翻译后的描述中保持原样。例如,一个提示为“a sign that reads ‘FLUX-Reason-6M’”的请求会被翻译,但短语 “FLUX-Reason-6M” 会保持英文形式。
这一双语框架使 FLUX-Reason-6M 成为最大且最易获取的双语文本生成图像(T2I)推理数据集之一,显著拓展了其对全球研究人员的影响力与实用性。
下图 4 展示了 FLUX-Reason-6M 数据集的统计特征,包括原始提示来源的比例(左)、每种描述类型的数量与百分比(中)。本文还统计了七个英文描述类别的词数分布,并在图 4 右侧进行了可视化。
PRISM-Bench
为了解决文本生成图像(T2I)合成中关键的评估缺口,本文提出了 PRISM-Bench。现有基准测试通常缺乏细粒度,无法区分最先进模型,仅依赖粗略指标或定义狭窄的任务。PRISM-Bench 克服了这些限制,提供了一个多维度、细粒度的评估框架。
它包含七个不同的子任务,每个子任务包含 100 条精心挑选的提示,旨在探索 T2I 模型的能力边界。这些子任务直接对应于本文数据集的六个特征:Imagination、Entity、Style、Text rendering、Composition 和 Affection,以及一个由 GCoT 提示构建的具有挑战性的 Long Text 任务。下图 5 展示了本文 PRISM-Bench 的概览。
提示设计与构建
每个子任务的 100 条提示被分为两组,每组 50 条,用于衡量模型性能的不同方面。第一组提示系统性地从 FLUX-Reason-6M 数据集中采样,以确保广泛的代表性;第二组提示则经过精心策划,用于针对每个特征的特定挑战性方面。
代表性提示采样
对于每个子任务,有 50 条提示直接来自 FLUX-Reason-6M 数据集。为了避免选择偏差并确保覆盖范围广泛,本文不采用简单的随机采样,而是使用语义聚类与分层采样的方法。具体而言,对于每个类别(例如 Entity),本文从 FLUX-Reason-6M 数据集中收集数据集中评分最高的前 10,000 条提示。然后本文使用 K-Means 算法将这些提示划分为k=50个不同的语义聚类。每个聚类代表该类别中的一个独特概念主题。本文从每个聚类中选择最接近聚类中心(即该组的数学中心)的提示,并将其从数据集中移除。该提示被视为该语义主题中最具代表性的样本。
这种方法保证了概念的多样性。它不会对常见主题进行过度采样,而是确保这 50 条提示涵盖了数据集中该类别所代表的所有概念。
类别特定提示构建
每个子任务的另外 50 条提示来自本文的精心策划。具体如下:
- 想象力:本文首先将想象类概念划分为多个主要类别,例如物理不可能性和超现实叙事。然后本文使用 LLM(Gemini2.5-Pro)从一个或多个类别中随机选择元素,以生成相应的提示。
- 实体:本文整理了不同类别实体的列表:著名地标、特定动植物种类、历史人物和品牌物品。然后本文利用 LLM 随机选择一到三个实体,生成相应提示。
- 文本渲染:本文设计了不同长度的文本内容(例如:“FLUX-Reason-6M”、“Welcome to the future ... ...”)、不同字体风格(例如手写体、涂鸦喷漆),以及不同的表面与位置(例如在木质标牌上、在 T 恤上)。通过 LLM 系统性地组合这三类元素,生成相应提示。
- 风格:本文定义了四大风格类别,包括艺术流派(例如印象派、立体主义)、媒介形式(例如油画、水彩)、摄影技术(例如长曝光、微距摄影)以及数字/现代美学(例如像素艺术、蒸汽波)。这些类别总计包含 25 种详细风格,本文使用 LLM 为每种风格生成 2 条提示.
- 情感表达:本文以 Plutchik 的情绪之轮作为基础来源,选择了不仅包括八种基本情绪(喜悦、信任、恐惧、惊讶、悲伤、厌恶、愤怒、期待),还包括它们的轻微和更强烈形式。本文要求 LLM 基于这些情绪生成相应的提示。
- 构图:本文构建了多个属性池,包括颜色、数量、尺寸、空间关系等。每次生成时,从每个属性池中抽取若干属性,并由 LLM 自由组合,生成包含多个对象及其多样关系的提示。
- 长文本:本文从 FLUX-Reason-6M 数据集中选取 50 张高质量图像及其所有对应的描述文本,输入至 Gemini2.5-Pro 进行长文本扩展,最终生成 50 条具有挑战性的提示。
PRISM-Bench-ZH 本文使用 Gemini2.5-Pro 将英文提示翻译成中文,从而构建 PRISM-Bench-ZH。值得注意的是,在 Text rendering 子任务中,本文并未简单地将所有文本翻译为中文,而是根据中文语境进行适配。例如,原文 “A bottle labeled ‘WHISTLEPIG’ featuring ‘SMOKED BARREL-AGED RYE’ sits alongside two clear whiskey glasses, showcasing a refined presentation of the spirit” 被翻译为 “一个标有‘茅台’并写着‘珍品酱香型白酒’的酒瓶,旁边放着两个透明的白酒杯,尽显这款烈酒的精致典雅。”
人类参与优化
本文对所有生成的提示进行审查,以确保其无歧义、语法正确且逻辑合理(即使是幻想性的),从而确保评估的公平性与挑战性。最终,本文获得了 700 条多样、具有代表性、富有挑战性且双语的提示。
评估协议
为了确保对模型能力进行稳健且细致的评估,本文制定了一套全面的评估流程。本文的方法核心是利用 VLM 的高级认知能力作为人类判断的代理,从两个关键维度对模型性能进行细致分析:提示-图像一致性(prompt-image alignment)与图像美学(image aesthetics)。通过精心设计的提示,本文引导 VLM 从不同视角对生成结果进行评估。这种双指标方法提供了对每个模型优劣势的整体视图。本文分别采用 GPT-4.1 和 Qwen2.5-VL-72B 作为闭源与开源 VLM 的代表进行评估。
细粒度一致性评估
本文方法的核心创新在于使用子任务特定的评估提示来评估一致性。本文认识到,通用的 “图像是否匹配提示?” 的问题不足以捕捉每个类别的具体挑战,因此本文为 VLM 设计了针对七个子任务重点的定制指令。这确保了评估不仅关注整体对应关系,还关注提示所测试的具体任务是否成功完成。对于每一张生成图像,VLM 会提供一句话的评价理由,并根据以下子任务特定标准打出 1(极差一致性)到 10(完美一致性)之间的分数:
- 想象力:评估重点在于模型是否成功地合成了所描述的新颖或超现实概念,奖励那些富有创意且连贯地诠释想象性想法的结果。
- 实体:一致性评分依据是对特定、具名的现实世界实体的准确呈现,包括其关键特征和上下文。
- 想象力:评分标准严格,重点考察图像中文字的可读性、拼写准确性,以及指定文本在图像中的精确位置。
- 风格:VLM 被指示评估生成图像与明确请求的艺术或摄影风格(例如,“印象派”、“长曝光”)的一致性,检查是否具备该风格的特征性技法。
- 情感表达:评估重点是图像是否通过颜色、光照和主体表情等视觉线索有效传达指定的情绪、情感或氛围。
- 构图:VLM 的提示强调验证物体的空间排列、相对位置(例如,“在左侧”、“在后面”)、颜色表现,以及图文所要求的物体数量是否正确。
- 长文本:对于这一具有挑战性的子任务,评估衡量模型是否能够从复杂、多句的 GCoT 提示中吸收并体现出高密度的细节信息。 这种有针对性的方法能够更精确且有意义地衡量模型在每一个不同类别中的能力。
统一美学评估
不同于一致性指标,图像美学的评估在所有七个子任务中使用一套统一的 VLM 指令。这是因为美学质量——涵盖光照、色彩协调、细节以及整体视觉吸引力等因素——是一种与具体提示内容无关的通用属性。VLM 会为每张图像提供一句话的评价理由,并打出一个美学评分,范围从 1(极低质量)到 10(专业质量)。这一统一标准确保了对不同模型生成图像的内在视觉质量的公平比较。
通过将该评估流程系统性地应用于领先的闭源模型(例如 Gemini2.5-Flash-Image、GPT-Image-1)和开源模型(例如 Qwen-Image、FLUX.1-Krea-dev)所生成的英文图像,以及适用于中文的模型(例如 SEEDream 3.0、Qwen-Image、Bagel)在 PRISM-Bench-ZH 上的图像,本文收集了全面的评估结果。每个模型在每个子任务上的表现,以该子任务对应的 100 条提示的平均一致性评分和美学评分(映射为 0-100 范围)表示。这两个指标的平均值代表模型在该子任务上的综合表现。七个子任务的整体平均分代表模型的最终表现,为当前 T2I 生成技术的发展状态提供了清晰且可操作的概览。
实验
本文在 PRISM-Bench 上评估了 19 个先进的图像生成模型,包括 Gemini2.5-Flash-Image、GPT-Image-1、Qwen-Image、SEEDream 3.0、FLUX 系列、HiDream 系列、Stable Diffusion 系列、Playground、Bagel 和 JanusPro。综合结果如下表 1 和下表 2 所示。同时,本文还在 PRISM-Bench-ZH 上评估了多个支持中文的模型,包括 GPT-Image-1、Qwen-Image、SEEDream 3.0、HiDream 系列和 Bagel。评估结果汇总于下表 3 和下表 4。
PRISM-Bench 上的结果与分析
整体表现
如上表 1 和上表 2 所示,整体结果突显了当前最先进闭源模型的优势。GPT-Image-1 取得了最高总分86.3 ,紧随其后的是 Gemini2.5-Flash-Image,得分为85.3 。这些模型在几乎所有评估子任务中都优于其他模型。
在其余模型中,以 Qwen-Image 为代表的一个具有竞争力的梯队正在形成。尽管与顶级模型之间仍存在明显的性能差距,这些模型代表了开源社区的重大进展。HiDream-I1-Full 和 FLUX.1-Krea-dev 也取得了优异成绩,表明该领域正在迅速发展。模型系列内部的演进同样明显,例如 SDXL 相较于 SD1.5 显著提升,而更新的 SD3.5-Large 进一步缩小了与顶级模型之间的差距。上表 2 中的 Qwen-VL 评估结果在很大程度上印证了这些排名。
想象力
Gemini2.5-Flash-Image 以高分88.6 遥遥领先,GPT-Image-1 紧随其后,得分为8604 。这表明领先的闭源模型具备更高级的创意解读能力。Qwen-Image 的表现也令人印象深刻,而像 SD1.5 这样的旧模型表现不佳,常常生成普通或失真图像,未能捕捉提示中的想象力本质。
实体
GPT-Image-1 在该任务中表现出色,得分最高为88.2 ,展示了其强大的内部知识库和高保真渲染能力。Gemini2.5-Flash-Image 和 SEEDream 3.0 也有良好表现。该子任务对世界知识基础较弱的模型构成挑战,凸显了大规模高质量训练数据对于真实世界描绘的重要性。
文字渲染
文字渲染仍是几乎所有 T2I 模型面临的一大挑战。本文的基准测试验证了这一点,该类别在所有子任务中得分最低。值得注意的是,Bagel 和 JanusPro 等自回归模型在此任务中表现较差,突显了自回归架构在文字渲染任务中的固有局限性。
风格
GPT-Image-1 在该任务中表现出色,得分为93.1 。大多数现代模型在该任务中表现相对较好,能够高度还原所请求的风格。这些模型的高分表明,相较于文字渲染等任务,捕捉风格本质的能力更加成熟。
情感表达
顶级模型在捕捉情绪与氛围方面展现出卓越能力。Gemini2.5-Flash-Image 以令人印象深刻的 92.1 分领先,GPT-Image-1 和 Qwen-Image 紧随其后。值得注意的是,FLUX.1-dev 在该类别中取得了最高的美学评分,表明其生成的图像在视觉上传达情感方面特别有效,即使在提示一致性方面略低。
构图
GPT-Image-1 以高分92.8 遥遥领先,充分展示了其解析并执行复杂空间指令的能力。Gemini2.5-Flash-Image 紧随其后,得分为90.5 。顶级开源模型在该领域具有很强的竞争力。Qwen-Image 的得分几乎与 Gemini2.5-Flash-Image 相同,表明在复杂构图理解方面的差距正在缩小。HiDream-I1-Full 和 FLUX.1-dev 等模型也展现出强大的构图能力。顶级模型之间的微小差异表明,构图控制正在成为现代图像生成系统中的一项成熟能力。
长文本
评估结果清晰地区分了顶级模型。Gemini2.5-Flash-Image 以 81.1 的最高得分领先,GPT-Image-1 和 SEEDream 3.0 也表现相对较好。然而,与其他子任务相比,所有模型在该任务中的整体得分显著偏低,表明在根据复杂、多层次提示生成高质量图像方面仍有巨大提升空间。下图 6 展示了一个典型示例。这突显了 FLUX-Reason-6M 所要解决的推理能力缺口问题。
PRISM-Bench-ZH 的结果与分析
PRISM-Bench-ZH 的评估结果揭示了一个明确的性能层级,GPT-Image-1 以总分87.5 建立了其领先地位。它在大多数子任务中均处于领先地位,包括想象力、实体、风格、情感表达和构图,展现了其在应对中文提示时的卓越创意解读、知识基础和空间布局能力。同时,SEEDream 3.0 和 Qwen-Image 在所有子任务中表现出强劲的竞争力,常常接近或接近领先者的水平。尤其值得注意的是 SEEDream 3.0 和 Qwen-Image 在文字渲染方面的表现,这与英文文本生成中普遍存在的弱点形成鲜明对比。
在这些模型中,SEEDream 3.0 与 GPT-Image-1 拥有最高的平均得分,其中 SEEDream 3.0 获得了最高的美学评分,表明其具备渲染高质量中文字符的能力。这些模型的强劲表现验证了基准测试在中文文化适应性提示设计上的合理性,并突显了在中文排版处理方面的显著进步。下图 7 展示了不同模型在中文文字渲染方面的示例。
尽管如此,与 PRISM-Bench 的测试结果一致,长文本子任务仍然是所有模型面临的最大挑战。虽然 GPT-Image-1 再次在该类别中领先,但整体得分偏低,凸显了理解和合成冗长、复杂中文指令的巨大障碍。这进一步强调了像 FLUX-Reason-6M 这样的推理导向数据集的迫切需求,以解决现有能力缺口,训练新一代真正智能的文本生成图像模型。
结论
本研究通过两个关键贡献解决了文本生成图像模型中的核心问题:FLUX-Reason-6M 数据集与 PRISM 基准测试。FLUX-Reason-6M 是一个包含 600 万张图像、2000 万条高质量提示的大规模数据集,专为推理任务设计,具备创新的“生成-思维链”结构,赋予模型跨越六大特征的图像合成逻辑。为衡量进展,本文开发了 PRISM-Bench,一个涵盖七个子任务的全面基准测试,利用先进的多模态大模型(VLM)实现细粒度、贴近人类偏好的评估。
在 19 个模型上的广泛实验表明,尽管领先的闭源系统展现出令人印象深刻的性能,所有模型在诸如文字渲染和长指令遵循等复杂任务上仍然存在困难,这进一步凸显了本文工作的必要性。通过公开发布该数据集、基准测试和评估代码,为社区提供了训练和评估下一代更智能、更强大文本生成图像模型的关键工具。
本文转自AI生成未来 ,作者:AI生成未来
