
突破Prompt瓶颈:链式思维+双阶段奖励,港大等开源GoT-R1让多物体合成更神准!
论文链接: https://arxiv.org/pdf/2505.17022 Git链接: https://github.com/gogoduan/GoT-R1
亮点直击
- GoT-R1框架,该框架通过强化学习增强视觉生成中的语义-空间推理能力,使模型能够自主发现有效的推理策略,而不仅仅依赖预定义的模式。
- 设计了一个全面的双阶段多维度奖励框架,从多个角度评估中间推理过程和最终视觉输出,有效应对视觉生成中强化学习所面临的独特挑战。
- 在T2I-CompBench基准测试上展示了显著的性能提升,尤其是在需要精确空间关系和属性绑定的组合任务中表现出色。
总结速览
解决的问题
视觉生成模型虽然在根据文本提示生成图像方面取得了进展,但在应对包含多个对象、精确空间关系和属性绑定的复杂提示时仍面临挑战。现有方法缺乏对语义内容与空间布局的显式推理能力,难以生成结构合理、语义一致的图像。
提出的方案
为应对上述挑战,提出了GoT-R1 框架,该框架基于“生成思维链(Generation Chain-of-Thought)”理念,结合强化学习,引导模型在视觉生成过程中进行逐步推理,从而实现更高质量的图像合成。
应用的技术
- 强化学习机制:用于训练模型自主学习有效的推理策略,摆脱对预定义模板的依赖。
- 双阶段多维度奖励框架:
- 第一阶段:评估中间推理过程;
- 第二阶段:评估最终图像输出。
- 评估维度涵盖语义一致性、空间准确性和视觉质量。
- 多模态大模型(MLLMs)辅助评估:利用强大的多模态理解能力对推理过程和图像质量进行综合判断。
达到的效果
在 T2I-CompBench 基准测试中,GoT-R1 在需要复杂组合推理的任务中表现优异,特别是在涉及精确空间关系和属性绑定的图像生成任务中取得了显著性能提升,成功推动了视觉生成技术的发展。
方法
本节将介绍GoT-R1 框架的详细内容。首先回顾前置知识,包括生成思维链(Generation Chain-of-Thought, GoT)范式和群体相对策略优化(Group Relative Policy Optimization, GRPO)算法。然后,描述 GoT-R1 框架的网络架构和训练策略。最后详细阐述基于多模态大模型(MLLM)的双阶段多维度奖励设计。该奖励系统全面评估提示、推理过程与生成图像之间的一致性,从而为强化学习提供全面的监督信号。
前置知识
生成思维链(GoT) 生成思维链(GoT)是一种在输出图像之前,通过显式的视觉-语义链式推理过程来转化视觉生成的方法。与传统的文本到图像生成方法直接将文本嵌入映射为视觉特征不同,GoT 将复杂提示拆解为包含语义描述和空间坐标的推理链。例如,给定提示 “一只狗和一只猫一起玩耍”,一个GoT推理链可能包括诸如 “一只顽皮的棕色狗” ,坐标为(100,200),(350,450) ,以及 “一只橘色虎斑猫”,坐标为(400,250),(650,500)的描述,明确指定每个对象的语义属性和空间位置。这种显式的链式推理使得对对象属性、空间布局和对象间关系的精确控制成为可能,显著提升了生成图像的组合保真度。
为了赋予生成模型推理能力,GoT 构建了大规模的训练数据,利用手工设计的模板标注推理链。GoT 框架通过监督方式在标注数据上进行训练,以生成推理链和图像。然而,这种方法本质上受到训练数据中手工设计且固定推理模板的限制,阻碍了模型在多样化场景中发现更有效推理策略的能力。此外,通过监督微调训练的 GoT 框架容易生成模板化但有时不忠实的推理链,从而限制了后续视觉生成的效果。
策略随后通过优化以下目标函数进行更新:
GoT-R1 框架
GoT-R1 基于文本到图像生成的生成思维链(GoT)框架,通过引入强化学习来增强语义-空间推理能力。如前所述,尽管 GoT 为组合图像生成提供了坚实的基础,但其效果受限于训练数据中预定义的推理模板。本文框架通过强化学习使模型能够自主发现更优的推理策略,同时保持端到端的优化过程,从而克服这一限制。
网络架构采用一个统一的多模态大模型(MLLM)作为基础架构,该模型联合建模文本和图像 token。例如,Janus-Pro 能够在单一模型中处理视觉理解和生成任务,将图像作为离散 token 与文本 token 一起进行联合自回归建模。这一架构使我们能够以端到端的方式生成文本推理链和视觉输出,实现整个生成过程的全面优化。
训练策略本文基础模型在没有思维链推理过程的文本到图像生成任务上进行了预训练。为了激发其推理能力,训练过程分为两个阶段:
- 第一阶段,使用 GoT 数据集 中的推理链和生成图像标注对预训练模型进行微调(SFT)。该阶段建立了在生成图像 token 之前生成模板化推理链的基本能力,为后续的强化学习提供了良好的初始化。
- 第二阶段,应用强化学习引导模型探索自由形式且更有效的推理链。对于每个提示P ,我们采样N个不同的推理链及其对应的图像。这些样本随后通过我们设计的多维度奖励函数进行评估,该函数同时考察推理质量和生成保真度。模型参数通过 GRPO 进行更新,以鼓励高奖励的推理策略和生成图像,并抑制低奖励的样本。我们奖励函数的具体设计将在下一小节详细介绍,该函数旨在应对评估视觉推理质量的独特挑战。
基于 MLLM 的双阶段多维度奖励
GoT-R1 生成框架由两个阶段组成:从提示生成推理链,以及从推理链生成图像。一个直接的强化学习集成方式是基于提示-图像对齐的端到端奖励。然而,如果不对中间的推理过程进行显式约束,推理链可能无法忠实反映提示,或与最终图像不一致,从而削弱生成流程的可解释性和可控性。为了引导模型进行忠实且一致的生成,设计了一个结合结果与中间过程监督的双阶段奖励机制。
本文定义了三类奖励:
MLLM 在该场景中作为奖励模型具有独特优势,因为它们具备强大的跨模态理解和推理能力。经过大规模图文对训练,MLLM 能够在语义一致性和空间布局等多个维度上,对推理链与生成图像进行统一、可解释且细粒度的评估。这使得它们非常适合作为强化学习中的奖励函数,而传统指标往往难以提供细致的多维反馈。奖励机制如下图 3 所示。
- 完整性(Completeness):推理链是否包含提示中提到的所有概念?
- 忠实性(Faithfulness):是否引入了与提示相矛盾的内容?
- 一致性(Consistency):推理是否在逻辑上与描述的场景一致?
- 清晰度(Clarity):内容是否连贯且格式正确?
为弥补这一能力差距,提出了一种创新的基于 MLLM 的布局评估方法,其核心观察是:MLLM 在处理视觉数据时展现出优于文本坐标的空间理解能力。因此,将文本坐标转换为图像,通过在空白画布上渲染相应的边界框来实现。采用这种视觉格式后,MLLM 展现出显著更强的空间理解能力,并能对推理链的空间正确性提供清晰准确的评分。下图 4 展示了该过程的示意图。
实验
训练设置
分别基于 Janus-Pro-1B 和 Janus-Pro-7B 训练了两个模型。我们的训练过程包含两个阶段:在 GoT-T2I 数据集上的预训练,以及使用构造的提示集进行的在线 GRPO强化学习。使用 LAHR-GoT、JourneyDB-GoT和 FLUX-GoT数据集对模型进行预训练,共进行 70000 步,然后进行 1000 步的 GRPO 训练。
定量评估
下表 2 展示了在 T2ICompBench 上的文本到图像(T2I)生成性能评估。将模型与三类主流方法进行比较:(1) 使用冻结编码器直接将文本输入映射为图像的扩散模型;(2) 两阶段模型,先规划结构化布局,然后据此生成图像;(3) 融合 LLM 或 MLLM 的自回归模型以增强生成能力。
GoT-R1 框架在组合式文本到图像生成中建立了新的最先进水平。在仅进行 1000 步 GRPO 微调后,它在多个评估指标上提升了最多 15%。GoT-R1-7B 在六个评估类别中的五个中获得最高分,并在复杂基准测试中表现出显著优势,该测试包含混合自然语言的组合提示。在形状类别中,GoT-R1-7B 表现与 FLUX 相当。
本文的 7B 模型在所有类别中远超其他布局引导模型。GoT-R1-1B 的性能也优于 Janus-Pro-7B,甚至在颜色属性上超过了 FLUX。这些提升凸显了将结构化推理过程与强化学习优化相结合在组合图像合成中的有效性。
定性评估
下图 5 展示了基础模型 Janus-Pro-7B、GoT 微调后的模型 Janus-Pro-7B-GoT,以及我们通过 GRPO 增强的模型 GoT-R1-7B 之间的定性比较。我们展示了来自组合提示的生成示例,这些提示涉及多个属性、相对空间关系和对象数量。
虽然 GoT 微调模型生成的图像质量高于基础模型,但在复杂组合生成方面仍存在困难。相比之下,GoT-R1-7B 展现出更强的提示对齐能力,即使是非自然提示也能准确反映在生成结果中。此外,GoT-R1-7B 能够生成细节丰富且美学上令人满意的视觉内容。
这些提升主要归因于基于 MLLM 的奖励设计,它指导模型在 GoT 推理过程与输出图像之间优化语义和空间对齐。通过利用 MLLM 的细粒度评估,奖励机制使 GoT-R1-7B 不仅在视觉质量上表现出色,还能忠实捕捉复杂提示的意图。
自探索生成推理链分析
为了评估推理质量,将 GoT-R1-7B 的自探索生成推理链与 Janus-Pro-7B-GoT 的预定义 GoT 进行了比较。GPT-4o对来自 T2I-CompBench 的 Color、Spatial 和 Complex 三个类别中每类随机抽取的 100 个提示,以及来自 LAION-5B 的 100 个提示进行了 GoT 内容评估。
评判基于四个标准:与输入提示的相关性、对象描述和边界框的准确性、文本的清晰度和流畅性。 如下表 3 所示,GPT-4o 在所有评估类别中都更倾向于 GoT-R1-7B 的自探索推理。这一强烈偏好强调了 GoT-R1 在自主发现和生成更优推理路径方面的能力,这是其提升组合生成能力的关键因素。
奖励设计的消融研究
对基于 MLLM 的双阶段多维奖励和关键训练设置进行了全面的消融研究,以验证其贡献。所有消融实验均在 T2I-CompBench 上进行,使用基于 Janus-Pro-1B-GoT 检查点的 GRPO 训练 1000 步,该模型作为我们的基线。结果显示在上表 2 和下表 4 中,评估时使用的引导尺度为 5。
结论与讨论
GoT-R1,一种通过将强化学习应用于语义-空间推理显著提升视觉生成的新框架。基于 Generation Chain-of-Thought 方法,GoT-R1 使模型能够自主发现有效的推理策略,突破了预定义模板的限制。一个关键创新是双阶段多维奖励系统,它利用 MLLM 全面评估中间推理过程和最终视觉输出,确保在整个生成流程中提供稳健的监督。该奖励机制评估了诸如语义对齐和空间准确性等关键方面。
评估结果表明,GoT-R1 在 T2I-CompBench 上表现优越,尤其在需要精确空间关系和属性绑定的复杂组合任务中表现出色。通过成功将自探索的复杂推理能力迁移到视觉生成领域,GoT-R1 推进了当前技术水平,并为创建更精确、具备上下文感知能力的视觉内容开辟了新路径。然而,与所有强大的生成式AI一样,负责任地开发和部署此类技术至关重要,以减轻潜在风险(如被滥用于虚假信息传播),并确保其在伦理上的应用。
本文转自AI生成未来 ,作者:AI生成未来
