零外部数据自我进化大模型训练框架-R-Zero框架训练思路 原创

发布于 2025-8-21 09:39
浏览
0收藏

现有自进化 LLMs 的训练严重依赖人类标注的任务和标签(通过微调或强化学习等方式),成本高、难以扩展。

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

(左):R-Zero 在挑战者和求解者之间采用了协同演化环。(右):R-Zero 在没有任何预定义任务或人类标签的情况下实现了显著的基准提升。

提出了 R-Zero 框架,从零外部数据出发,通过初始化具有不同角色的 Challenger(挑战者)和 Solver(求解者),让两者独立优化并协同进化:Challenger 因生成接近 Solver 能力边缘的任务而获得奖励,Solver 因解决 Challenger 提出的日益困难的任务而获得奖励,形成无需预先存在的任务和标签的自我提升课程,最终提升 LLMs 的推理能力。

方法

R-Zero框架的核心是Challenger和Solver双角色协同进化循环:Challenger和Solver均从同一个基础LLM初始化,二者独立优化但通过迭代交互共同进化。

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

R-Zero 框架

如上图,顶部:Challenger通过GRPO算法训练,生成对当前Solver具有挑战性的问题;基于这些问题,通过过滤策略和多数投票机制构建问答数据集;底部:在求解器训练阶段,求解器在由现已冻结的挑战者生成的这些难题的过滤集上,使用其自身投票得出的伪标签,通过 GRPO 进行微调。整个过程无需人工干预,形成“生成问题→训练求解→提升能力→生成更难问题”的自循环,最终实现Solver推理能力的持续提升。

1、Challenger训练

Challenger的目标是生成接近Solver能力边缘的问题(既不过于简单也不过于困难),其核心是设计合理的奖励函数引导生成高质量问题,下面看看奖励函数设计:

1.1 不确定性奖励

奖励Challenger生成能让Solver“最大化不确定”的问题。具体计算方式:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

1.2 重复惩罚

为避免Challenger生成语义相似的问题,引入基于BLEU分数的重复惩罚:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

1.3 格式检查惩罚

和dpsk一样,要求Challenger生成的问题必须包裹在​​<question>​​​和​​</question>​​标签内,未遵守格式的问题直接被赋予0奖励,确保数据结构规范。

1.4 综合奖励与策略更新

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

Challenger阶段提示词:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

训练参数:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

2 Solver数据集构建

Challenger更新后,需构建用于训练Solver的数据集,核心是筛选“难度适中”的问题:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

3 Solver训练

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

Solver阶段提示词:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

训练参数:

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

实验性能

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

参考文献:R-Zero: Self-Evolving Reasoning LLM from Zero Data,https://arxiv.org/pdf/2508.05004repo:https://github.com/Chengsong-Huang/R-Zero

本文转载自​大模型自然语言处理​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-8-21 13:52:37修改
收藏
回复
举报
回复
相关推荐