多模态偏好数据集生成与混合偏好优化(MPO)方法

发布于 2025-7-7 09:44
浏览
0收藏

本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。

多模态偏好数据集生成

1、数据引擎

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

生成方法

  • 有明确答案的指令:通过选择正样本和负样本来构建偏好对。
  • 没有明确答案的指令:使用 Dropout Next-Token Prediction (DropoutNTP) 方法。具体来说,所有生成的响应被视为正样本,通过截断响应的后半部分来生成负样本。

效率比较:与 RLAIF-V 提出的更复杂的方法相比,DropoutNTP 方法在生成数据时更高效,成本更低。

2、多模态偏好数据集

数据统计:使用上述方法,构建了一个包含约 750K 个无明确答案的样本和 2.5M 个有明确答案的样本的数据集。

  • 无明确答案的样本中,每条指令平均 25.0 个token,被选中和被拒绝的响应分别平均 211.4 和 171.2 个token。
  • 有明确答案的样本中,指令平均长度为 79.5 个token,被选中和被拒绝的响应分别平均 300.0 和 350.5 个token。

数据来源

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

MPO(混合偏好优化)方法

这是文章的核心,基于多模态数据构建偏好数据集 MMPR,使模型学习不同模态信息下响应的优劣偏好。提出背景是在使用直接偏好优化(DPO)训练MLLMs时,模型可能会生成不合理的理由并产生重复的响应。这导致模型在生成长篇理由(Chain-of-Thought, CoT)时的表现不佳

为了解决这个问题,提出了MPO。目的是学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

偏好损失:使用DPO作为偏好损失,使模型学习被选中和被拒绝响应之间的相对偏好。

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

其中:

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

质量损失:使用BCO(Binary Classifier Optimization)作为质量损失,帮助模型理解单个响应的绝对质量(二分类器)。

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

生成损失:使用SFT损失,帮助模型学习生成偏好响应的过程。

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

实验

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

多模态偏好数据集生成与混合偏好优化(MPO)方法-AI.x社区

参考文献:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442

本文转载自​​大模型自然语言处理​​   作者:余俊晖

已于2025-7-8 09:37:23修改
收藏
回复
举报
回复
相关推荐