鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

零外部数据自我进化大模型训练框架-R-Zero框架训练思路原创

大模型自然语言处理

发布于 2025-8-21 09:39

浏览

0收藏

现有自进化 LLMs 的训练严重依赖人类标注的任务和标签（通过微调或强化学习等方式），成本高、难以扩展。

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

（左）：R-Zero 在挑战者和求解者之间采用了协同演化环。（右）：R-Zero 在没有任何预定义任务或人类标签的情况下实现了显著的基准提升。

提出了 R-Zero 框架，从零外部数据出发，通过初始化具有不同角色的 Challenger（挑战者）和 Solver（求解者），让两者独立优化并协同进化：Challenger 因生成接近 Solver 能力边缘的任务而获得奖励，Solver 因解决 Challenger 提出的日益困难的任务而获得奖励，形成无需预先存在的任务和标签的自我提升课程，最终提升 LLMs 的推理能力。

方法

R-Zero框架的核心是Challenger和Solver双角色协同进化循环：Challenger和Solver均从同一个基础LLM初始化，二者独立优化但通过迭代交互共同进化。

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

R-Zero 框架

如上图，顶部：Challenger通过GRPO算法训练，生成对当前Solver具有挑战性的问题；基于这些问题，通过过滤策略和多数投票机制构建问答数据集；底部：在求解器训练阶段，求解器在由现已冻结的挑战者生成的这些难题的过滤集上，使用其自身投票得出的伪标签，通过 GRPO 进行微调。整个过程无需人工干预，形成“生成问题→训练求解→提升能力→生成更难问题”的自循环，最终实现Solver推理能力的持续提升。

1、Challenger训练

Challenger的目标是生成接近Solver能力边缘的问题（既不过于简单也不过于困难），其核心是设计合理的奖励函数引导生成高质量问题，下面看看奖励函数设计：

1.1 不确定性奖励

奖励Challenger生成能让Solver“最大化不确定”的问题。具体计算方式：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

1.2 重复惩罚

为避免Challenger生成语义相似的问题，引入基于BLEU分数的重复惩罚：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

1.3 格式检查惩罚

和dpsk一样，要求Challenger生成的问题必须包裹在<question>和</question>标签内，未遵守格式的问题直接被赋予0奖励，确保数据结构规范。

1.4 综合奖励与策略更新

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

Challenger阶段提示词：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

训练参数：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

2 Solver数据集构建

Challenger更新后，需构建用于训练Solver的数据集，核心是筛选“难度适中”的问题：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

3 Solver训练

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

Solver阶段提示词：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

训练参数：

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

实验性能

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

零外部数据自我进化大模型训练框架-R-Zero框架训练思路-AI.x社区

参考文献：R-Zero： Self-Evolving Reasoning LLM from Zero Data，https://arxiv.org/pdf/2508.05004repo：https://github.com/Chengsong-Huang/R-Zero

本文转载自大模型自然语言处理作者：llmnlp

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大模型训练框架

已于2025-8-21 13:52:37修改

赞

收藏

回复

举报

回复

相关推荐

LFPLM：基于预训练语言模型的通用灵活负荷预测框架

AIRoobt • 5489浏览 • 0回复
LLM 合并新思路：进化算法+零训练->新任务

amei2000go • 4316浏览 • 0回复
引入自我反思的大模型 RAG 框架(Self-RAG)

AI博物院 • 4615浏览 • 0回复
腾讯的混源视频模型HunyuanVideo：大视频生成模型训练的系统框架

Halo咯咯 • 5259浏览 • 0回复
大模型训练之训练数据准备，即怎么准备高质量的训练数据集？

AI探索时代 • 5188浏览 • 0回复
“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证

大模型自然语言处理 • 3354浏览 • 0回复
DeepSeek-R1-Zero自我进化的3大特点和3大基石

智驻未来 • 4084浏览 • 0回复
中国科大认知全重实验室发布Agent-R1训练框架，支持自主思考与工具调用！

arnoldzhw • 2791浏览 • 0回复
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析

大模型自然语言处理 • 3004浏览 • 0回复
突破性创新：Genius框架实现大语言模型无监督自我进化

顿数AI • 2464浏览 • 0回复
全面复现DeepSeek-R1-Zero 数学、代码能力，训练步数仅需R1-Zero 1/10

快手技术 • 2065浏览 • 0回复
从零到一构建Agent系统：四大模块 + 框架生态详解

PyTorch研习社 • 4513浏览 • 0回复
智驾｜一文读懂大模型训练的技术框架和优化策略

数智飞轮 • 3000浏览 • 0回复
将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3

大模型自然语言处理 • 1712浏览 • 0回复
标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝

大模型自然语言处理 • 2121浏览 • 0回复
高质量多模态训练数据生成思路-SynthVLM

大模型自然语言处理 • 1958浏览 • 0回复
如何让多模态大模型学会“自动思考”-R-4B训练框架核心设计与训练方法

大模型自然语言处理 • 1069浏览 • 0回复
从模仿到自我进化，谷歌DeepMind发布下一代机器人基础模型的训练新范式

xuxiangda • 1743浏览 • 0回复
突破大模型训练瓶颈：腾讯团队提出RLPT新范式，让模型从预训练数据中自我强化

柏企阅文 • 1522浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

多模态文档理解视觉token剪枝思路 1天前发布
简单可拓展：思考增强预训练数据生成策略及相关实验结论 1天前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

上一篇： RAG精度瓶颈破局：结构化解析如何将知识库准确率拉满

下一篇：多模态大模型Ovis2.5核心技术改进点、训练方法

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载