破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法

发布于 2025-9-4 09:22
浏览
0收藏

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

论文链接:https://arxiv.org/pdf/2508.20751项目链接:https://codegoat24.github.io/UnifiedReward/Pref-GRPO 

亮点直击

  • 提出分析视角,揭示奖励欺骗(Reward Hacking)的根本原因是“虚假优势问题”;
  • 基于上述分析,提出了 PREF-GRPO—— 首个基于成对偏好奖励的 GRPO 方法,用于稳定的文本生成图像(T2I)强化学习。该方法将传统的“最大化绝对奖励分数”的优化目标,重新表述为“拟合成对偏好”;
  • PREF-GRPO 能够识别图像质量中的细微差异,从而带来更稳定、更具方向性的优化效果,提升训练稳定性并缓解奖励欺骗问题;
  • 构建了 UNIGENBENCH,一个涵盖多维评估指标与多样化提示主题的评测基准,同时提供了一套高效的基准构建与 T2I 模型评估流程;

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

总结速览

解决的问题

  1. 奖励欺骗(Reward Hacking)问题:当前 T2I 模型训练中广泛采用基于点对点得分的奖励模型,通过归一化得分进行策略优化。然而,这种方式容易出现“虚假优势”现象,即生成图像间得分差异微小,在归一化后被放大,导致模型过度优化无意义的细节,反而损害图像质量,造成奖励欺骗。
  2. 评估维度粗糙、覆盖不足:现有 T2I 基准测试多为粗粒度评估,缺乏对模型在各个语义子维度上的细致分析,限制了对模型能力的全面理解与比较。

提出的方案

  1. PREF-GRPO 方法:提出首个基于成对偏好奖励(pairwise preference reward)的 GRPO 强化学习方法,将优化目标从“最大化得分”转变为“拟合偏好”,缓解奖励欺骗问题,提升训练稳定性。
  2. UNIGENBENCH 基准测试集:构建统一的 T2I 评测基准,涵盖 600 条提示语,5 大主题、20 个子主题,支持在 10 个主评估维度和 27 个子维度上进行细粒度评估,提升对模型性能的全面性判断。

应用的技术

  1. 成对偏好奖励建模:通过对生成图像组内图像进行两两比较,计算胜率作为奖励信号,使模型更关注图像质量的真实差异。
  2. Group Relative Policy Optimization(GRPO)强化学习框架:以组为单位进行策略优化,结合偏好建模提升训练效果。
  3. 多模态大语言模型(MLLM)辅助评估:利用 MLLM 的图文理解能力,构建并执行细粒度的 T2I 模型评估流程。

达到的效果

  1. 缓解奖励欺骗,提升训练稳定性:PREF-GRPO 能够有效识别图像质量中的细微差异,避免模型因虚假优势陷入过拟合,训练过程更加稳定可靠。
  2. 更具方向性的优化过程:相比传统点对点评分,PREF-GRPO 提供更稳定的优化信号,提升 T2I 模型在细节上的生成质量。
  3. 实现全面细致的模型评估:UNIGENBENCH 支持对 T2I 模型在多个语义维度上的系统性评估,揭示开源与闭源模型在不同任务下的优势与短板。
  4. 推动 T2I 模型训练范式转变:通过 PREF-GRPO 和 UNIGENBENCH,展示了更加稳定、高效、可控的 T2I 训练与评估新范式,为未来研究提供了实用工具与理论基础。

PREF-GRPO

本工作引入了 PREF-GRPO,旨在为文本生成图像(T2I)任务建立一个更稳定的强化学习(RL)范式,以缓解现有奖励得分最大化 GRPO 方法中的奖励欺骗问题。在本节中,本文首先介绍 GRPO 应用于流匹配模型的核心思想,然后分析奖励欺骗的根本原因,即虚假优势,最后描述本文提出的基于成对偏好奖励的 GRPO 方法。

流匹配 GRPO

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

策略通过最大化正则化目标函数进行更新:

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

其中:

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

其中

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

为了满足 GRPO 的随机探索需求,(Liu et al., 2025) 将确定性的 Flow-ODE  转换为等价的 SDE。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

奖励分数最大化 GRPO 方法中的虚假优势

现有基于流匹配的 GRPO 方法使用点式奖励模型(RMs)对每一步训练中生成的一组图像进行评分。然后,通过将每张生成图像的奖励分数相对于该组进行归一化来计算其优势,如公式 3 所示。该归一化操作使得一组样本中的优势标准化。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

对小幅奖励差异的过度放大,即“虚假优势”,会带来若干不利影响:(1) 过度优化:即使是极小的分数差异也被夸大,导致策略过度更新并采取极端行为,即奖励欺骗(见下图 2);(2) 对奖励噪声的敏感性:优化过程对奖励模型中的偏差或不稳定性变得高度敏感,使得策略倾向于利用模型缺陷,而非对齐真实偏好。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

基于成对偏好的奖励 GRPO 方法

为缓解现有方法中的虚假优势问题,本文提出了 PREF-GRPO,它利用成对偏好奖励模型(Pairwise Preference Reward Model, PPRM)将优化目标重新表述为成对偏好拟合。PREF-GRPO 不再依赖绝对奖励分数,而是评估生成图像之间的相对偏好,模拟人类在比较两张相似图像时的评估过程。


这种方法使得奖励信号能够更好地捕捉图像质量中的细微差异,为策略优化提供更稳定且更具信息量的优势,同时降低对奖励欺骗的敏感性。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

与奖励分数最大化相比,Pref-GRPO 提供了若干优势:(1) 奖励方差放大:通过将绝对奖励分数转换为成对胜率,Pref-GRPO 在生成图像组中自然地增加了奖励的方差。高质量样本的胜率趋近于 1,而低质量样本则趋近于 0,从而产生一个更具区分性和更稳健的奖励分布,有助于优势估计,并缓解奖励欺骗问题。(2) 对奖励噪声的鲁棒性:由于优化依赖于相对排序而非原始分数,Pref-GRPO 大幅减轻了小幅奖励波动或奖励模型偏差所带来的放大影响。这降低了策略利用奖励信号缺陷的可能性,提升了训练稳定性。(3) 与人类偏好的对齐:成对比较的形式模拟了人类的感知评估过程。当比较两张质量相近的图像时,人类判断本质上是相对的而非绝对的。通过模拟这一过程,Pref-GRPO 能捕捉点对评分常忽略的细粒度质量差异,从而为策略改进提供更真实可靠的信号。

UNIGENBENCH

现有基准测试存在以下局限性:(1) 粗粒度评估维度下的覆盖有限:通常每个评估维度下仅包含少数子维度,无法全面反映模型能力。例如,如下图 4 所示,当前基准测试在“关系”和“语法”维度下仅包含一个子维度,导致在这些方面对模型性能的评估不完整且可能具有误导性。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

(2) 缺乏子维度级别的评估:仅提供主评估维度的分数,未对各个子维度进行评估。这种缺乏细粒度的评估限制了解释性,阻碍了对文本生成图像(T2I)模型优势与劣势的深入理解。


因此提出 UNIGENBENCH,这是一个统一的图像生成基准测试,涵盖多样的提示主题与全面的细粒度评估标准。本文将首先介绍基准测试中的提示主题与评估维度设计,随后详细说明本文基于多模态大模型(MLLM)的自动提示生成与 T2I 评估流程。

提示主题与评估维度设计

如下图 3 所示,UNIGENBENCH 涵盖五大类提示主题:艺术(Art)、插画(Illustration)、创意发散(Creative Divergence)、设计(Design)以及电影与叙事(Film & Storytelling),进一步细分为 20 个子类别,同时包含多样的主体类别,包括动物、物体、拟人角色、场景,以及一个“其他”类别,用于涵盖特殊实体(例如科幻主题中的机器人)。与现有基准中的粗粒度指标不同,本文定义了 10 个主评估维度与 27 个子维度,覆盖了诸如逻辑推理、面部表情、代词指代等常被忽视的方面,从而实现细粒度评估并对齐人类意图。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

基准构建与评估流程

在建立了多样的提示主题、主体类别和评估维度之后,本文进一步构建了一个基于多模态大语言模型(MLLM)的自动化流程,以实现如下图 5 所示的基准框架。该流程服务于两个互补目标:

  • 系统性、可控地生成大规模、多样化且高质量的提示;
  • 实现可扩展、可靠且细粒度的文本生成图像(T2I)模型评估。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

通过利用 MLLM 的推理与感知能力,该流程无需昂贵的人类标注,即可在基准构建与模型评估中同时确保效率与可靠性。

提示与测试点描述生成

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

T2I 模型评估

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

实验

实现细节

基线模型:采用 FLUX.1-dev 作为基础模型,并在 PREF-GRPO 中使用 UnifiedReward-Think 作为成对偏好奖励模型(RM)。用于奖励最大化基线比较的模型包括 HPS、CLIP 和 UnifiedReward(UR)。


训练与评估:使用上图 5(a) 中的流程生成 5000 条训练提示,并在 UNIGENBENCH 上对模型进行评估。每个测试提示生成四个输出用于评估。跨领域语义一致性通过 GenEval 和 T2I-CompBench 评估,图像质量则通过 UR、ImageReward、PickScore 和 Aesthetic 进行评估。

PREF-GRPO 的结果

定量结果:如下表 1 和下表 2 所示,PREF-GRPO 在语义一致性和图像质量方面均表现出显著提升。例如,在 UNIGENBENCH 上,相较于基于 UR 的得分最大化方法,PREF-GRPO 的总体得分提升了 ,在 Text 维度提升了 ,在 Logical Reasoning 维度提升了 。在图像质量评估中,本文的方法也展现出全面优势。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

奖励欺骗分析:可视化了基于 UR 的得分最大化方法与 PREF-GRPO 在训练过程中图像质量得分的演变。如上图 2 所示,尽管基于 UR 的模型得分增长迅速,但中间结果显示图像质量实际在下降。相比之下,PREF-GRPO 虽然拟合成对偏好,得分增长相对缓慢,但在视觉质量上表现出持续稳定的提升,并有效缓解了奖励欺骗。

UNIGENBENCH 基准测试结果

如下表 3 所示,闭源模型表现最为强劲:GPT-4o 和 Imagen-4.0-Ultra 在大多数维度上领先,尤其在逻辑推理、文本渲染、关系理解和复合任务上,显示出强大的语义对齐与理解能力。开源模型正在不断进步:Qwen-Image 和 HiDream 在开源模型中持续排名前列,在动作、布局和属性等维度展现出显著优势,正在逐步缩小与闭源模型之间的差距。尽管如此,仍存在一些局限性。大多数开源和闭源模型在最具挑战性的维度上尚未达到饱和,特别是在逻辑推理与文本渲染方面,仍有较大提升空间。此外,开源模型在各维度上通常表现出更大的不稳定性,常常在语法与复合任务上落后。

破解文生图模型作弊乱象!复旦&腾讯曝出奖励机制惊人漏洞,Pref-GRPO给出新解法-AI.x社区

结论

PREF-GRPO,首个基于成对偏好奖励的 GRPO 方法,提供了更稳定的文本生成图像(T2I)强化学习范式。此外,引入了 UNIGENBENCH,这是一个统一的 T2I 生成基准,涵盖了全面的评估维度与多样化的提示主题。大量实验验证了本文方法的有效性以及该基准的可靠性。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/nViwYBhdQWKnhjnvSKePRg​

收藏
回复
举报
回复
相关推荐