
复旦:基于强化微调的统一多模态思维链奖励模型
本文介绍了一种新的统一多模态链式思维奖励模型,该模型通过强化微调方法实现了对复杂推理过程的学习和激励。传统的奖励模型通常只能提供直接响应或浅层推理,而新提出的模型能够进行多层次、逐步的长链推理,从而提高了奖励信号的准确性和可靠性。该模型采用了探索驱动的强化微调方法,首先利用小规模图像生成偏好数据来学习GPT-4o的推理过程,并将其用于模型的冷启动;然后利用模型的先验知识和泛化能力,准备大规模的统一多模态偏好数据来引导模型在各种视觉任务中进行推理;最后使用群体相对策略优化(GRPO)进行强化微调,使模型能够探索多样化的推理路径并优化正确的解决方案。实验结果表明,引入长链推理显著增强了奖励信号的准确性。值得注意的是,在掌握长链推理后,模型还具有隐式推理能力,即使没有明确的推理轨迹也能超越现有基准线。
该工作旨在将长链思考(CoT)推理纳入奖励模型的决策过程中,以增强奖励信号的可靠性和鲁棒性。然而,由于缺乏大规模CoT奖励数据,传统的训练方法如监督微调(SFT)仍具有高度挑战性。因此,本文提出了统一多模态CoT奖励模型(UNIFIEDREWARD-THINK),并采用了探索驱动的强化学习微调来激活和优化视觉语言模型(VLM)的多维和分步长期推理能力。具体而言,该流程包括三个关键阶段:冷启动、拒绝采样和相对策略优化(GRPO)。
在冷启动阶段,使用少量经过蒸馏的CoT奖励数据来初始化奖励模型,并教导其遵循结构化的CoT推理格式。在拒绝采样阶段,利用大量统一偏好数据激发模型的一般化CoT推理能力,通过保留正确推理样本进行拒绝采样来进一步加强模型的CoT推理能力。最后,在GRPO阶段,引入可验证奖励(format reward和accuracy reward)来引导模型的学习,并采用GRPO强化学习微调来提高模型的CoT推理能力。
该方法的主要创新在于采用了探索驱动的强化学习微调(GRPO)来进一步提高模型的CoT推理能力。此外,该方法还引入了可验证奖励机制,以确保模型生成的响应既符合特定的推理结构,又准确无误地回答问题。
解决的问题
该方法主要解决了传统训练方法中缺乏大规模CoT奖励数据的问题,以及如何提高奖励信号的可靠性和鲁棒性的问题。通过采用统一多模态CoT奖励模型和探索驱动的强化学习微调,该方法能够有效地激活和优化VLM的多维和分步长期推理能力,从而提高模型的CoT推理能力和可靠性。
本文主要介绍了四个实验,分别是图像生成、视频生成、图像理解以及视频理解任务的实验。在这些实验中,作者使用了多个数据集和奖励模型,并进行了详细的评估和比较分析。
第一个实验是图像生成任务,作者使用了HPD、OIP、EvalMuse等数据集,并使用了统一奖励模型来评估生成结果。结果显示,作者的方法在所有测试样本上都表现出了优异的表现。
第二个实验是视频生成任务,作者使用了VideoDPO和Text2Video-Human Preferences等数据集,并使用了统一奖励模型来评估生成结果。结果显示,作者的方法在所有测试样本上都表现出了优异的表现。
第三个实验是图像理解任务,作者从LLava-Critic-113K数据集中随机抽取了30K个数据,并使用了统一奖励模型来评估理解结果。结果显示,作者的方法在所有测试样本上都表现出了优异的表现。
第四个实验是视频理解任务,作者使用了ShareGPTVideo-DPO数据集,并使用了统一奖励模型来评估理解结果。结果显示,作者的方法在所有测试样本上都表现出了优异的表现。
总的来说,作者的方法在所有实验中都表现出了优异的表现,证明了其在视觉生成和理解任务中的有效性。此外,作者还进行了几个重要的实验,包括每个训练阶段的效果评估、去除CoT推理的GRPO方法的效果评估等,进一步验证了作者的方法的有效性和优越性。
本文转载自柏企阅文
