
DiffusionReward:通过奖励反馈学习增强盲脸修复 原创
摘要
奖励反馈学习(ReFL)最近在各种生成任务中展现出了巨大的潜力,能够使模型输出与人类偏好保持一致。在这项工作中,我们首次将ReFL框架引入盲脸修复任务,称之为DiffusionReward。DiffusionReward有效地克服了基于扩散的方法的局限性,这些方法通常无法生成逼真的面部细节,并且身份一致性较差。我们框架的核心是面部奖励模型(FRM),它使用精心注释的数据进行训练。FRM提供反馈信号,在指导修复网络的优化过程中起着关键作用。特别是,我们的ReFL框架将梯度流纳入现成的面部修复方法的去噪过程中,以指导模型参数的更新。指导梯度由三个方面共同决定:(i)确保修复后面部感知质量的FRM;(ii)作为保障以保持生成多样性的正则化项;(iii)维持面部保真度的结构一致性约束。此外,FRM在整个过程中进行动态优化。它不仅确保修复网络与真实面部流形精确对齐,还有效防止了奖励破解。在合成数据集和真实数据集上的实验表明,我们的方法优于最先进的方法,显著提高了身份一致性和面部细节。源代码、数据和模型可在https://github.com/01NeuralNinja/DiffusionReward获取。
图1:基于扩散的人脸恢复方法存在的问题示例。经过ReFL增强后,基础模型中的问题得到显著缓解。左侧展示原始扩散方法的缺陷,右侧展示经过Reward Feedback Learning优化后的改进结果。
引言
真实场景中捕获的人脸图像常遭受复杂多样的退化,如模糊、压缩伪影、噪声和低分辨率。盲人脸恢复(BFR)旨在从这些退化输入中恢复高质量(HQ)图像。由于低质量(LQ)输入存在大量信息丢失且退化过程通常未知,BFR本质上是一个高度不适定问题。因此,对于任何给定的LQ人脸,理论上存在包含无限可能高质量解的空间。从这个广阔解空间中准确重建HQ人脸图像仍是一个未解决的挑战,特别是在照片真实感、自然度和身份保持方面。
扩散模型凭借其卓越的生成能力已成为BFR的强大范式。这些模型利用训练期间获取的丰富视觉先验,以LQ图像作为条件输入,通过迭代去噪逐步重建高保真人脸。然而,这些预训练扩散模型通常在通用领域图像上训练,缺乏足够的人脸特定先验知识,导致恢复的面部图像常缺乏细节特征(如图1左)。面部先验的缺失不仅削弱了细节恢复质量,还加剧了映射模糊性(图1中)。此外,Stable Diffusion模型主要针对文本到图像生成任务训练,而非需要严格保真度的图像恢复任务,可能导致恢复过程中偏离原始身份特征(图1右)。
奖励反馈学习(ReFL)是一种已在文本到图像生成等领域验证的优化范式。它利用基于人类偏好训练的奖励模型来指导潜在扩散模型的微调,提升生成输出的质量、真实感和用户对齐度。本工作将ReFL应用于BFR任务以解决上述扩散基人脸恢复方法的局限。对于现成的扩散基人脸恢复方法,ReFL框架创新性地将其潜在扩散去噪过程重新解释为参数化迭代生成器。通过这种参数化,ReFL能够应用额外的优化约束,从而对预训练人脸恢复模型的参数进行细粒度调整。
我们精心构建的人脸奖励模型(FRM)是评估恢复人脸质量的关键组件。针对ReFL训练中常见的奖励作弊问题(即恢复模型利用奖励模型的"漏洞"而非真正提升图像感知质量),我们提出了FRM的动态更新策略。此外,我们还引入两个约束来进一步提升恢复性能:结构一致性约束确保恢复图像的面部结构与原始身份紧密对齐;权重正则化项限制当前参数与初始值的偏离程度,保持基础模型的生成能力。
主要贡献:
● 首次将ReFL引入BFR领域,为扩散基人脸恢复模型定制优化机制
● 设计数据标注流程构建能准确评估人脸图像感知质量的FRM,并提出动态更新策略防止奖励作弊
● 引入结构一致性约束和权重正则化两项约束
● 所提DiffusionReward框架显著提升基础模型的人脸恢复质量,达到最先进性能
解决问题
论文主要解决的是"盲人脸恢复"任务中的一个关键问题:如何让AI修复的模糊或低质量人脸照片看起来更真实自然,同时保持人物身份特征不变。
当手机拍的人脸照片因为光线差、镜头抖动或压缩变得模糊、有噪点时,传统修复方法要么修出来的脸太假(像塑料娃娃),要么把张三的脸修成李四的样子。这篇论文提出的"DiffusionReward"系统,核心是让AI在修复过程中像学生考试一样,有个"评分老师"(人脸奖励模型FRM)实时打分:
1.真实性评分:比如修复的皮肤纹理不能像橡皮泥,毛孔、皱纹等细节要自然(如图1左,传统方法修复的脸部像打了过度磨皮,而新方法能保留真实肤质)
2.身份一致性监督:修复后必须还是同一个人。例如输入一张模糊的周杰伦照片,不能修成陈奕迅的样子(如图1右,传统方法可能改变五官比例)
3.防作弊机制:防止AI为了刷高分走捷径(比如给所有人脸加上同样的虚假雀斑或高光,虽然能骗过评分系统但实际很假)
例如:
·老照片修复:一张20年前褪色的毕业照,AI修复后既能看清每个人的五官细节,又不会把班长修成副班长的模样
·监控视频增强:便利店摄像头拍到的模糊嫌疑人脸,修复后既能还原真实面部特征(如疤痕、胡须),又不会扭曲原本的面部结构
·直播美颜优化:避免直播美颜过度导致所有主播变成"网红脸",而是保留个人特色的自然美化
本质上,这项技术让AI在"修图"时兼顾"修得清晰"和"修得对",就像一个有艺术修养的修图师,既懂技术又理解什么是"真实的美丽"。
方法
研究人员发现,当前最好的人脸修复AI(基于扩散模型)虽然能大致修复模糊或损坏的人脸照片,但存在三个明显问题:修复后的皮肤纹理不够真实自然、有时会产生奇怪的伪影、最严重的是可能会改变原来的人脸身份特征。这就好比一个修图师虽然能修复老照片,但修完后可能把爷爷的照片修得像邻居大叔。
为了解决这些问题,研究人员设计了一套"奖励反馈"学习系统。这个系统的核心思想是模仿人类教学中的"表扬-纠正"机制。首先,他们训练了一个专门评判人脸质量的AI模型(FRM),这个模型就像一位严格的美术老师,能判断修复后的人脸是否真实自然。然后,在原有修复AI工作时,这个"老师"会实时给出评分,并通过特殊的算法不断调整修复AI的参数,让它朝着更真实、更保持原貌的方向改进。
具体实现上,研究人员做了几个关键设计:第一是构建了一个包含近2万张人脸的大数据集,并采用人工标注+AI辅助的方式,为每张修复效果图打上质量评分;第二是在优化过程中设置了多重保障机制,既鼓励AI追求高质量修复,又防止它为了得高分而投机取巧(比如产生不自然的统一纹理);第三是加入了人脸结构一致性检查,确保修复过程不会改变原本的眼睛、鼻子等关键特征的位置关系。
这种方法最大的创新点是让修复AI在保持原有强大生成能力的同时,学会更符合人类审美的修复方式。就像教画家在保持个人风格的基础上,画出更符合解剖学的人像。实验证明,经过这种训练后的AI,其修复效果在真实感和身份保持度上都明显提升,特别是在处理严重模糊或损坏的照片时优势更加明显。
图2:面部奖励模型的训练框架。我们首先训练一个支持向量机(SVM)[6]分类器用于自动标注。该分类器使用度量向量(v1, v2)和已标注的监督信号进行训练(左图)。面部奖励模型基于CLIP[32]架构(右图),其中图像编码器EI的最后20层和文本编码器Et的最后11层是可训练的,其余参数则被冻结。s1和s2表示分数,由图像嵌入和文本嵌入之间的相似度推导而来(例如,)。
DiffusionReward框架的核心原理可以通过图2和图3的协同作用来深入理解。整个系统建立在奖励反馈学习(ReFL)机制上,通过精心设计的人脸奖励模型(FRM)与扩散模型的深度交互,实现对盲人脸恢复过程的精准调控。
图2展示了人脸奖励模型的训练流程,这是整个系统的质量评估中枢。研究人员首先构建了一个包含近2万张多样化人脸的数据集,通过LLaVA模型为每张图像生成文本描述,形成图文配对。随后采用三种不同的盲恢复方法生成退化图像的恢复版本,最终构建包含原始高质量图像和恢复图像的偏好数据集。在标注阶段,创新性地采用人工标注与自动化标注结合的混合策略:人工标注3600对图像后,训练SVM分类器自动标注剩余数据。这个分类器通过分析SSIM、PSNR等六种图像质量指标的组合特征来预测人类偏好。基于这些标注数据,框架对CLIP架构的HPSv2模型进行微调,通过调整图像编码器最后20层和文本编码器最后11层的参数,使模型能够准确评估恢复人脸与文本描述的匹配度。这种设计使得FRM不仅能判断图像质量,还能理解面部特征与语义描述的对应关系。
图3则揭示了ReFL训练框架如何将FRM的反馈转化为对扩散模型的优化力量。该系统将现有人脸恢复模型的去噪过程重新参数化为可微分的生成模块,在最后一个去噪步骤施加多重约束。FRM提供的奖励信号通过反向传播形成梯度,引导模型生成更符合人类偏好的面部细节。为防止模型过度迎合奖励分数而产生虚假特征(即奖励作弊),框架引入了三重保护机制:结构一致性约束通过LPIPS度量和小波变换的低频成分保持,确保恢复图像与输入图像的身份特征对齐;权重正则化约束则像"锚点"一样限制参数更新幅度,保留预训练模型的生成多样性优势。最具创新性的是动态更新策略——每经过10次生成器训练,就用当前模型输出的恢复图像更新FRM,形成两者相互促进的协同进化。这种设计使得FRM能持续适应生成模型的变化,始终将优化方向约束在真实人脸流形空间内。
图3:我们的ReFL训练框架。(左图)我们引入多个约束条件以优化生成模块gθ,包括Lreward、Lreg和Lstruct(详见3.3节)。(右图)为提高训练效率,这些约束条件仅应用于最后一个去噪步骤。
两个模块的协同工作形成了闭环优化系统:FRM作为"质量评判官"不断提供改进方向,扩散模型作为"画家"根据反馈调整笔触,而动态更新机制则确保这种互动不会陷入自我欺骗的怪圈。在实际应用中,这种机制显著改善了扩散模型在面部纹理细节恢复上的不足。例如对皮肤毛孔、眉毛毛发等高频细节的还原更加逼真,同时避免了常见的人工平滑效应。对于身份特征的保护也更为可靠,即使在大姿态或遮挡情况下,恢复结果仍能保持与原始身份的连贯性。这种技术突破使得基于扩散模型的人脸恢复从"大致相似"提升到了"细节精确"的新层次,为实际应用提供了更可靠的解决方案。
实验结果
本研究首先在合成数据集CelebA-Test上进行了全面量化评估,共采用11项指标衡量不同方法的性能表现。如表1所示,当将DiffusionReward框架应用于两种基础模型(OSEDiff和DiffBIR)时,括号内的数值变化清晰表明该方法在几乎所有指标上均实现了性能提升。与当前最先进方法相比,经过我们框架增强的OSEDiff(+ours)和DiffBIR(+ours)在Degradation评分、唇部运动距离(LMD)、美学评分及FaceReward等核心指标上均占据领先地位,这证实了ReFL框架不仅能提升人脸的感知质量,还能有效保持身份一致性。视觉对比结果(图4)进一步显示,我们的方法在身份一致性保持和皮肤纹理细节还原方面具有显著优势,恢复的面部特征更贴近真实人脸的复杂纹理分布。
针对真实场景数据集的测试结果(表2)表明,在LFW-Test和WebPhoto-Test这两个具有挑战性的真实退化数据集上,DiffusionReward框架对基础模型的美学评分和图像质量指标MUSIQ均有明显提升。特别值得注意的是,OSEDiff(+ours)在两个数据集的所有对比方法中均取得最佳性能。图5展示的定性对比中可以看到,基础模型在处理真实世界退化时经常产生面部细节过度平滑的问题,而我们的方法成功克服了这一缺陷,生成的人脸不仅具有更丰富的细节,还保持了自然的视觉效果。这种改进在复杂光照条件和重度压缩伪影的场景中尤为明显。
消融研究部分通过系统性的组件分析揭示了ReFL框架各要素的作用机制。如表3所示,当使用原始HPSv2奖励模型替代我们专门设计的FRM时,FRM在人工标注测试集上的偏好预测准确率显著高出24.73%(87.78% vs 63.05%),这直接转化为生成质量的明显优势。表4的消融实验将框架分解为四个关键组件:结构一致性约束(SC)、权重正则化(WR)、奖励反馈(Rwd)和奖励模型更新(RU)。结果显示仅使用SC和WR的Variant 1虽然改善了身份保持(LMD指标提升),但导致感知质量(MUSIQ)下降,生成的面部存在过度平滑现象。加入Rwd形成的Variant 2在感知质量上获得显著改进,恢复了更精细的面部细节。而移除WR的Variant 3则出现生成能力退化,表现为头发细节丢失等问题。图6(c)的视觉示例清晰展示了奖励作弊现象——Variant 2生成的面部出现痤疮样伪影,而引入RU机制的完整框架成功消除了这类异常模式。
在讨论奖励作弊现象时,图13通过两种典型模式展示了人脸恢复任务中的这一特殊问题。Style 1表现为严重的风格化倾向,生成人脸呈现统一的"绘画感"外观;Style 2则显示为持续存在的非自然瑕疵,如重复皮肤纹理。右图的流形空间示意图形象化地解释了这一现象:红色原点代表初始状态,橙色奖励作弊点虽然获得高分但偏离真实人脸流形,绿色理想点则实现了质量提升与流形保持的平衡。这种分析为动态更新策略的必要性提供了理论依据,说明固定奖励模型会导致优化过程陷入局部最优。
值得注意的是,该方法目前主要针对扩散模型架构验证,在GAN或Transformer等架构上的适用性仍有待探索。尽管ReFL原则具有普适性,但将其扩展到其他架构可能需要调整奖励反馈的整合方式,这也是未来研究的重要方向。所有实验均在NVIDIA L20 GPU环境下完成,训练采用Adam优化器,基础模型分别选择代表单步推理(OSEDiff)和多步推理(DiffBIR)的两种扩散范式,确保了方法在不同类型扩散模型上的泛化能力。
本文转载自AIRoobt ,作者:AIRoobt
