
突破性创新:Genius框架实现大语言模型无监督自我进化 精华
在人工智能的发展历程中,大语言模型(LLM)的推理能力一直是研究的核心焦点。然而,传统的推理能力增强方法往往依赖于高质量的监督信号,如标注好的答案或外部奖励模型,这不仅成本高昂,而且难以扩展。近期,来自上海人工智能实验室、西安交通大学等机构的研究团队提出了一个革命性的解决方案——Genius框架,这是一个可泛化、纯无监督的高级推理自训练框架,能够让大语言模型在没有任何外部监督的情况下自我提升推理能力。
传统方法的局限性
目前增强LLM推理能力的方法主要分为两类:一类是监督微调(SFT),需要与查询配对的带有良好注释的响应;另一类是强化类方法,需要基本事实答案或验证。前者在数学和编码等特定领域有效,但许多其他问题缺乏明确的解决方案或基本事实,难以推广到更广泛的推理任务。后者利用外部奖励模型进行验证,但通用奖励模型的训练依赖昂贵的注释,并可能引发奖励黑客问题。
这些限制促使研究者提出一个关键问题:如何在没有任何外部监督的情况下提高LLM推理能力?
Genius:无监督自训练的创新框架
Genius框架通过提出一种可泛化的自训练方法解决上述问题。与传统方法不同,Genius只需要策略LLM本身和一组无监督查询,无需外部辅助。它建立在自训练范式之上,即LLM首先根据输入查询生成响应,然后选择最优响应进行训练。
核心技术创新
1. 基于前瞻性重采样的探索与利用
生成自训练数据的关键挑战是如何在不依赖外部资源的情况下收集和自我奖励LLM响应。Genius采用逐步采样方法,通过前瞻性技术来寻求最优响应序列。
具体来说,Genius通过以下步骤工作:
- 步骤展开与前瞻在每个时间戳,Genius首先展开一组候选步骤,并通过模拟未来步骤来自我奖励它们。
- 基于前瞻的重采样使用前瞻分数来近似分布,然后对其进行采样以确定下一步(用于探索),并重新采样以创建步骤级偏好对(用于开发)。
- 优势计算与数据构建为正面和负面响应序列计算优势值,并构建训练偏好对。
2. 优势校准优化(ACO)
虽然上述方法提供了一种质量-效率平衡的解决方案,但基于少量展开计算前瞻分数分布可能导致步骤值的偏差估计,不可避免地为自监督标签引入噪声。为解决这一问题,Genius引入了优势校准优化(ACO)损失函数,通过惩罚前瞻分数和步骤优势之间的不一致估计来提高自训练优化的鲁棒性。
ACO损失函数可以分为两个不同区域:正常区域和校准区域。在正常区域,负面响应序列与正面响应序列可区分;而在校准区域,当负面响应序列提供更多实际优势时,它将受到较少的惩罚(在自奖励计算中权重较小)。
实验结果:无监督自训练的有效性
研究团队在多个推理基准测试上评估了Genius的性能,包括:
- 数学推理:GSM8K、MATH、GPQA
- 逻辑推理:ReClor、LogiQA
- 一般推理:StrategyQA、ARC-Challenge
- 通用基准:AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro
- 竞赛级任务:AIME2024
主要发现
- 显著提升推理能力仅使用25K无监督训练查询,Genius就将LLaMA3.1-8B-Instruct的平均CoT推理性能提高了7.43%。
- 优于强基线Genius在所有评估基准上一致表现出最先进的性能,平均优势>2%。
- 在具挑战性任务中表现更佳在MATH等具挑战性任务上,Genius比Self-Rewarding表现更好,优势>4%。
- 通用任务性能一致性Genius在通用领域保持了性能稳定,大多数情况下略有改善。
- 适用于不同骨干LLM在Qwen2.5系列模型上的实验表明,Genius可以作为一种通用的后训练技术,既可以作为已后训练LLM的持续自训练方法,也可以作为模型本身的替代后训练策略。
后训练扩展规律
研究还探索了Genius的后训练扩展规律。结果表明,Genius能够随着训练步骤的增加迅速自我改进,并且进展平稳。这表明使用Genius进行自训练远未饱和,仍有改进空间,而其他基线方法在扩展时似乎面临挑战。
技术深度解析
方法论详解
预备知识
Genius的一个主要优势是它只需要无监督自然语言(NL)查询作为输入。在自训练设置下,LLM πθ根据查询生成响应,然后选择最优响应来优化自身。Genius的主要目标分为两部分:(1)合成和奖励响应;(2)使用响应优化LLM。
基于前瞻重采样的探索与利用
为确保多样性,Genius在逐步采样过程中使用束搜索策略。步骤束大小定义为M,文章中展示了M=2的简单情况。
步骤展开与前瞻:在时间戳k-1,Genius保持M个前置路径a<k,每个路径由k-1个步骤组成。路径中最后一步的值定义为Qk-1(m),其中m∈[1,M]。对于每个束m,Genius首先展开N个候选步骤ak,总共产生M*N个候选步骤。
为了解决自回归生成的局限性并构建全局感知的响应,Genius基于每个候选步骤ak执行未来步骤的模拟,称为"前瞻"。这允许我们导出响应序列及其各自的前瞻分数,使用剩余步骤的平均对数概率计算:a'>k, fk ~ πθ(·|a<k; ak)
用于探索和利用的重采样:基于前瞻技术,Genius通过在分布Fk上采样来为当前时间戳k选择步骤ak(m):{ak(m)}m=1^M ~ Categorical(Fk)
这样,我们可以保持M个束用于下一步的探索。每个选定步骤ak(m)的Q值定义为前瞻分数:Qk(m) := fk(m)
除了探索外,Genius还利用每个时间戳k处的整个响应序列Tk=(a<k, ak, a'>k)进行优化。为了鼓励多样性并避免在类似响应上过拟合,我们基于分布Fk引入重采样策略。
优势和数据构建:由于推理序列是从不同的束完成的,仅用前瞻分数fk评估每个步骤是不够的。因此,Genius为正面和负面响应序列导出优势值Ak:Ak^w = fk^w - Qk-1^w, Ak^l = fk^l - Qk-1^l
从方程中可以看出,前瞻分数通过前一步的Q值进行校准。
优势校准优化
给定构建的偏好对,我们可以通过强化学习优化LLM。还有两个关键步骤未解决:(i)制定自我奖励以进行偏好优化;(ii)导出优化目标。
将自我奖励制定为偏好:基于Bradley-Terry模型,偏好的测量可以表示为:p*(T^w ≻ T^l|x) = σ(r*(x,T^w) - r*(x,T^l))
其中r*(T|x)表示最优奖励函数,σ(·)表示sigmoid函数。在DPO的背景下,策略LLM πθ被用作隐式奖励模型,自我奖励函数φ建模为:φ(x,T) ∝ β·log(πθ(T|x)/πref(T|x))
ACO损失函数:在无监督设置下,训练对是基于前瞻分数分布采样的,这会在优化过程中引入噪声。上述自我奖励公式以相同的尺度处理每个偏好对,难以检测异常并提高鲁棒性。因此,我们提出使用计算的优势值A来校准自我奖励函数φ,为负面响应序列的自我奖励添加松弛项w(x,A):
φl(x,T^l) = β·w(x,A)·log(πθ(T^l|x)/πref(T^l|x))
w(x,A) = clip(exp(-(A^l-A^w)/α), 1)
其中A^l-A^w表示负面步骤和正面步骤带来的优势差异,α是控制松弛项尺度的超参数。
将自我奖励函数φw和φl代入方程并使用负对数似然形式优化,得到ACO损失:
LACO = -E(x,T^w,T^l)~D log σ[β·log(πθ(T^w|x)/πref(T^w|x)) - β·clip(exp(-(A^l-A^w)/α), 1)·log(πθ(T^l|x)/πref(T^l|x))]
实现细节
训练语料库
训练查询分别来自两个通用语料库:Magpie和OpenHermes-2.5。考虑到计算成本,研究者从Magpie随机选择25K查询,从OpenHermes-2.5选择32K查询,分别用作自训练的来源。
基础LLM
在主要实验中,研究者使用LLaMA3.1-8B-Instruct作为骨干。为验证泛化能力,还将自训练方法应用于Qwen2.5-Instruct系列模型,包括3B和7B变体。
训练和推理设置
对于前瞻采样配置,设置M=2,N=4,K=4。基于此,Magpie和OpenHermes2.5的训练对总数分别为100K和128K。推理过程由vLLM引擎加速。
与其他方法的比较
研究者将Genius与多种基线方法进行了比较:
- 需要监督的方法:
- SFT:给定输入查询和标记响应对LLM进行微调
- SPIN:通过类似DPO的目标,迭代细化模型生成的响应与标记响应
- 只需无监督查询的方法:
- STaR:通过微调从自构建响应持续引导
- CoH:通过自我提示获取正面和负面响应,并使用DPO损失函数优化LLM
- Self-Rewarding:利用LLM自身作为评判者为自生成的响应打分,然后使用DPO损失在构建的偏好对上优化LLM
- ScPO:生成多个轨迹并用自一致性标记偏好
实验结果表明,Genius在所有评估基准上一致优于这些强基线方法。
消融研究:验证核心贡献
为了揭示Genius核心贡献的有效性,研究者分别对"采样-奖励"策略和优化目标进行了消融研究。
采样策略消融
消融前瞻模块导致平均性能下降3.17%-3.25%,说明前瞻采样策略缓解了语言模型生成的短视性,前瞻分数的使用优化了步骤值的自我奖励。将"采样"替换为贪婪选择也导致显著下降,验证了"重采样"策略在探索与利用之间取得了平衡。
优化方法消融
研究者比较了各种优化方法,包括DPO、SimPO、IPO、ROPO和SFT。在这些流行方法中,ACO损失函数脱颖而出,在7个推理基准上显示出显著的平均性能改进。与鲁棒优化策略ROPO相比,ACO更适合自训练场景。
潜在应用与未来展望
Genius为LLM推理能力的后训练提供了一个独特的视角:LLM可以使用通用查询自我改进其一般推理能力,而无需任何形式的外部监督。仅使用25K无监督通用查询,Genius就令人惊讶地提高了多个推理基准的平均性能>7%。研究者还表明,通用查询的扩展规律随着训练步骤的增加而持续改善。
考虑到可用的通用数据丰富,这种扩展可以显著增强推理能力,并进一步推动推理扩展规律的边界。Genius为实现基于通用查询且无需监督的自我改进推理迈出了重要的第一步,鉴于通用查询的广泛可用性,它彻底改变了推理的扩展规律。
结论
本文聚焦于解决增强LLM推理的挑战性和关键任务,而无需依赖任何外部监督。提出的Genius框架是一个可泛化且纯无监督的自训练框架,解决了几个关键技术挑战:(1)如何采样响应;(2)如何在没有外部辅助的情况下自我奖励响应;(3)如何使用自策划的数据进行鲁棒优化。
大量实验表明,Genius不仅显著提升了LLM的推理能力,还在通用领域保持了性能稳定。扩展规律曲线的分析揭示了进一步扩展的巨大潜力,为LLM推理能力的自我提升开辟了新的研究方向。
GitHub:https://github.com/xufangzhi/Genius
论文:https://arxiv.org/abs/2504.08672
本文转载自顿数AI,作者:可可
