将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3 原创

发布于 2025-7-11 09:35

浏览

0收藏

来看一个实验比较扎实的工作，Skywork-R1V3将R1的思路引入多模态大模型，提出：直接将RL技术从仅文本的大语言模型转移到VLMs是不够的，需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL，供参考。

数据情况

1、冷启动微调数据

构建了一个包含约2万个实例的冷启动数据集，这些实例来自2024年之前的中国高中数学实践问题。数据集涵盖物理、化学、生物和数学四个主要学科（分布如下）。通过Skywork-R1V2模型生成每个问题的逐步思考过程，并使用拒绝采样策略筛选出最终答案与真实答案匹配的高质量实例。得到了大约12000个高质量的带有推理链的样本。

2、RL微调数据

K12难度多模态数学数据15000个样本，全部是多项选择题和填空题，每个实例由一个问题q和其对应的答案a组成，不包含显式的推理步骤。

3、连接器模块的调优数据

从20个不同领域中选择了10000个样本，用于在强化学习阶段之后对连接器模块进行专门的调优，以确保模型在不同领域中的知识和推理能力得到平衡和增强。

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

三个训练阶段的数据分布情况

后训练方法

1、奖励函数设计

Skywork-R1V3的奖励函数由两部分组成：

格式奖励：和dpsk那样，回答模板遵循结构 “< think >...< think >...”格式
准确性奖励：RL过程的主要目标，

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

准确性奖励优化目标

2、冷启动微调

冷启动微调阶段的目标是通过使用早期版本的Skywork-R1V2模型生成的样本，初始化模型的推理能力。在这个阶段，模型被训练以采用“先思考后回答”的方式，这种能力是从LLM的预训练阶段继承而来的。

3、强化学习微调

用PPO和GRPO算法来优化模型的推理策略，

PPO：通过限制策略更新的幅度来确保训练的稳定性，优化目标是最大化期望奖励。
GRPO：针对稀疏的二进制奖励（0或1），通过组内归一化来估计优势函数，从而提供更丰富的学习信号。（关于GPRO这里不再赘述，可参考《DeepSeek采用的GRPO算法数学原理及算法过程浅析》）

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

实现细节上，使用VERL框架进行训练，逐步增加上下文和输出长度，并使用特定的超参数设置（如学习率、批量大小等）来优化训练过程。

4、连接器模块微调

作用是跨模态对齐，仅调整连接器参数，可以有效重新平衡模型的知识分布，而不影响其推理能力。训练过程中使用特定的超参数设置（如学习率、批量大小等），并通过早停策略避免过拟合。

消融研究

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

对不同组件进行消融研究

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

模块消融

从上图可以看到：视觉编码器是否激活对模型性能的影响不大，连接器模块被冻结或移除，模型会迅速失去推理能力，奖励曲线急剧下降。

将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3-AI.x社区

引入课程学习策略，通过从简单到困难的问题逐步训练模型。实验结果显示，这种基于难度的课程学习策略并未提高模型的泛化能力。相反，模型在切换到更难的问题后，虽然在复杂任务上的表现有所提升，但在统一评估集上的表现却出现了偏差，尤其是在中等难度问题上的性能下降。这表明，模型在复杂任务上学到的特殊策略可能与中等难度任务的核心推理路径相冲突，从而削弱了整体泛化能力。