
回复
本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。
生成方法:
效率比较:与 RLAIF-V 提出的更复杂的方法相比,DropoutNTP 方法在生成数据时更高效,成本更低。
数据统计:使用上述方法,构建了一个包含约 750K 个无明确答案的样本和 2.5M 个有明确答案的样本的数据集。
数据来源:
这是文章的核心,基于多模态数据构建偏好数据集 MMPR,使模型学习不同模态信息下响应的优劣偏好。提出背景是在使用直接偏好优化(DPO)训练MLLMs时,模型可能会生成不合理的理由并产生重复的响应。这导致模型在生成长篇理由(Chain-of-Thought, CoT)时的表现不佳。
为了解决这个问题,提出了MPO。目的是学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。
偏好损失:使用DPO作为偏好损失,使模型学习被选中和被拒绝响应之间的相对偏好。
其中:
质量损失:使用BCO(Binary Classifier Optimization)作为质量损失,帮助模型理解单个响应的绝对质量(二分类器)。
生成损失:使用SFT损失,帮助模型学习生成偏好响应的过程。
参考文献:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442
本文转载自大模型自然语言处理 作者:余俊晖