
早期经验监督的智能体强化学习;推理元信息感知的强化学习奖励;安全与有效联合训练智能体框架
Agent Learning via Early Experience
2025-10-09|OSU, Meta Superintelligence Labs, Meta FAIR|🔺172
http://arxiv.org/abs/2510.08558v1
https://huggingface.co/papers/2510.08558
研究背景与意义
- 语言智能体旨在通过自身经验学习和提升,最终在复杂现实任务中超越人类表现。然而,当前训练方法面临诸多挑战。
- 传统的监督学习依赖专家示范数据,难以扩展且泛化能力有限,因示范数据覆盖场景狭窄且缺乏环境多样性。
- 强化学习虽能优化长期奖励,但现实环境中往往缺乏可验证的奖励信号,且多轮交互任务导致训练低效且不稳定。
- 本文提出“早期经验”范式,介于模仿学习与强化学习之间,利用智能体自身动作产生的未来状态作为无奖励信号的监督,突破了传统方法的限制。
- 该范式通过智能体自我探索获得丰富的环境反馈,促进其从失败和非最优行为中学习,提高适应性和泛化能力。
研究方法与创新
- 早期经验范式定义:智能体在专家示范基础上,主动采样多样化动作,收集对应的未来环境状态,构建包含状态-动作-后续状态的滚动数据集,作为无奖励的监督信号。
- 隐式世界建模(Implicit World Modeling, IWM):
将未来状态预测作为辅助任务,训练语言模型预测执行某动作后环境的下一状态。
该方法使模型内化环境动态,无需独立模拟器,提升对环境转移规律的理解,增强对非专家动作的鲁棒性。
训练采用两阶段:先用未来状态预测任务预训练,再用专家示范数据微调,兼顾环境理解和专家行为拟合。
- 自我反思(Self-Reflection, SR):
基于智能体对专家动作与自身备选动作产生的未来状态差异进行自然语言推理,生成“链式思考”解释,阐明专家动作优越性。
利用生成的反思文本与专家动作联合训练模型,促进模型学习更细粒度、可迁移的决策原则。
该方法强化模型从自身非最优行为中吸取经验,提升逻辑推理和长期规划能力。
- 两种方法均将智能体自身行为及其结果转化为可扩展的监督信号,突破了传统依赖外部奖励或专家示范的局限。
实验设计与结果分析
- 实验环境:涵盖八个多样化语言智能体任务,包括具身导航、科学实验模拟、长程规划、多轮工具使用、网页导航等,使用多种主流语言模型(Llama、Qwen等)。
- 训练细节:统一训练步骤预算,IWM先进行未来状态预测预训练再微调,SR生成反思文本与专家数据混合训练,确保公平比较。
- 效果显著提升:
两种方法在几乎所有环境和模型规模上均超越纯模仿学习,成功率提升幅度明显,尤其在需要多步推理和约束满足的任务中SR表现突出。
不同动作空间(有限、结构化大空间、开放动作集)和观察空间复杂度下均表现稳定,显示方法的广泛适用性。
- 泛化能力:
在多项环境的领域外测试中,早期经验方法显著提升模型对未见状态的适应性,部分环境中泛化增益甚至超过域内表现。
IWM在环境动态稳定时表现更优,SR在工具可用性和参数变化的分布转移中更具优势。
- 强化学习衔接:
在具备奖励信号的环境中,以早期经验训练的模型作为强化学习初始化,显著提升后续强化学习的最终性能和训练稳定性。
证明早期经验范式不仅提升无奖励阶段表现,也为后续奖励驱动学习奠定坚实基础。
结论与展望
- 本文系统提出并验证了早期经验范式,作为模仿学习与强化学习之间的有效桥梁,解决了语言智能体训练中缺乏奖励信号和专家数据不足的核心难题。
- 通过隐式世界建模和自我反思两种策略,智能体能够从自身探索中提取丰富监督信号,提升决策质量、泛化能力及后续强化学习效果。
- 实验覆盖多样环境和模型规模,结果表明该范式具有高度的通用性和可扩展性。
- 未来工作可探索更高效的探索策略、更丰富的反思机制以及与更多强化学习算法的深度结合,推动语言智能体迈向完全自主学习的“经验时代”。
Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
2025-09-26|KAIST, AITRICS|🔺44
http://arxiv.org/abs/2510.03259v1
https://huggingface.co/papers/2510.03259
https://github.com/akatigre/MASA-RL
研究背景与意义
- 问题定义与现状近年来,基于强化学习(RL)的后训练方法在提升大型语言模型(LLMs)推理能力方面表现突出,尤其是GRPO等算法在数学和代码生成等复杂任务中取得了领先成绩。然而,现有大型推理模型普遍缺乏“元认知”能力,即模型自我感知“如何思考”的能力,表现为模型预测的元信息(如问题难度、推理长度)与实际推理过程严重不匹配。
- 挑战与目标现有元认知推理方法往往依赖外部模型、人工设计的推理流程或专门的数据集,限制了其适用性和训练效率。本文提出的目标是设计一种无需外部监督、能够利用模型自生成信号进行元认知训练的强化学习框架,提升模型的元认知能力,从而直接促进推理性能和训练效率的提升。
研究方法与创新
- 核心方法——MASA框架MASA(Meta-Awareness via Self-Alignment)通过并行生成元预测路径和解决方案路径,分别针对元信息(如预测推理长度、难度及数学概念)和具体解答进行采样。其核心创新在于设计了“自我对齐”奖励机制,鼓励模型预测的元信息与真实推理轨迹统计数据保持一致,从而提升元认知的准确性。
- 奖励设计
- 长度对齐奖励:若预测推理长度落在正确解答推理长度范围内,则给予奖励。
- 难度对齐奖励:依据预测通过率与真实通过率的差异,采用指数衰减函数给予奖励,差异越小奖励越高。
- 数学概念奖励:统计预测涉及的数学概念在正确与错误解答中的出现频率,鼓励模型关注对正确解答有区分度的概念。
- 行为克隆与专家轨迹为提升训练稳定性,MASA引入基于DAgger的专家行为克隆机制,动态收集高质量的元预测轨迹作为专家数据,并在训练中进行监督微调,促进模型快速学习准确的元认知能力。
- 训练效率提升——MASA-efficient在MASA基础上,提出MASA-efficient,利用元预测结果实现预测性门控(过滤掉无效或过于简单/复杂的任务)和早期截断(提前终止可能错误的长推理轨迹),显著节省训练计算资源并加速收敛。此外,元预测的数学概念用于为模型提供辅助提示,进一步辅助推理过程。
- 理论基础与对比MASA方法区别于依赖外部验证器或人类设计推理流程的元认知方法,强调模型内部信号的自我对齐训练,具有更好的可扩展性和泛化能力。与传统GRPO等强化学习方法相比,MASA不仅提升了推理准确率,也优化了训练效率。
实验设计与结果分析
- 实验设置
- 使用VeRL数据集和DeepScalerR,结合GRPO算法进行后训练。
- 评估指标包括数学推理准确率(Pass@1,Pass@32)及逻辑、科学、编码推理等多领域的泛化能力。
- 对比基线为GRPO和DAPO,验证MASA与MASA-efficient的性能和效率提升。
- 主要结果
- 数学推理任务:MASA在六个数学基准(AIME24、AIME25、AMC23、MATH500、Minerva、Olympiad)上均显著优于GRPO,Qwen3-8B模型平均准确率提升6.2%,14B模型提升2.45%。
- 泛化能力:在逻辑推理(ProntoQA、ProofWriter)、科学推理(GPQA-Diamond)和编码任务(EvalPlus)等多领域测试中,MASA均表现出优于基线的性能,证明元认知训练提升了模型的跨领域推理能力。
- 训练效率:MASA-efficient通过预测性门控和早期截断实现了1.28倍的训练速度提升,同时保持甚至提升了最终性能。
- 统计显著性与多场景表现实验数据表明,元认知奖励与性能提升之间存在直接正相关,且MASA在不同模型规模和任务领域均表现稳健,验证了方法的普适性和有效性。
结论与展望
- 贡献总结
- 提出基于自我对齐的元认知强化学习框架MASA,首次实现无需外部监督的元认知训练。
- 设计多维度元认知奖励机制,促进模型准确预测推理过程的关键属性。
- 引入MASA-efficient,结合行为克隆和元预测驱动的计算资源优化策略,实现训练效率和性能的双重提升。
- 实验验证MASA显著提升了数学推理准确率及跨领域泛化能力。
- 局限性分析
- 当前元认知奖励设计依赖于对正确解答轨迹的统计,若训练数据质量不足,可能影响元认知准确性。
- 行为克隆机制引入额外超参数和训练复杂度,需进一步优化以适配更大规模模型。
- 预测性门控和截断策略在极端任务分布下的鲁棒性尚需深入研究。
- 未来展望
- 探索更丰富的元认知信号维度,如推理路径多样性和模型不确定性,以进一步提升自我认知能力。
- 将MASA框架扩展至多模态推理和交互式任务,增强模型的适用范围。
- 结合元认知与解释性推理,促进模型透明度和可控性,推动实际应用中的可信AI发展。
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
2025-10-03|Tencent , THU, PKU, CUHK|🔺37
http://arxiv.org/abs/2510.03222v1
https://huggingface.co/papers/2510.03222
https://github.com/CarlanLark/Lp-Reg
研究背景与意义
- 问题定义与现状概述
随着大型语言模型(LLMs)在复杂推理任务中的应用,强化学习与可验证奖励(RLVR)成为提升模型推理能力的关键技术。然而,RLVR训练过程中普遍存在性能瓶颈,表现为策略熵快速下降,导致探索能力丧失,训练陷入停滞甚至崩溃。现有方法多聚焦于保持整体策略熵,但忽视了探索的质量,导致无差别增加随机性,反而放大了无关噪声,影响训练稳定性。
- 挑战与目标阐明
本文深入分析探索瓶颈,发现关键在于低概率但极具价值的“推理火花”(Reasoning Sparks)——如“wait”、“however”等逻辑连接词的采样概率被系统性压制,导致探索路径单一化。同时,简单的熵增强方法会无差别放大噪声词,破坏训练稳定。目标是设计一种机制,有选择地保护这些有意义的低概率探索,过滤掉无关噪声,从而实现稳定且高质量的探索。
研究方法与创新
- 技术描述提出“低概率正则化”(Low-probability Regularization,Lp-Reg)方法,通过构造一个基于模型自信度的代理分布(proxy distribution),筛除低概率噪声词并重新归一化剩余词的概率,放大有价值的推理火花的相对概率。正则化项采用前向KL散度,惩罚策略对代理分布的偏离,避免有意义低概率词被过度惩罚。
- 创新点突出
聚焦探索质量而非整体熵:区别于传统熵正则化,Lp-Reg通过概率阈值过滤噪声,精准保护推理火花,提升探索的语义相关性和有效性。
基于模型内在置信度的动态阈值:采用动态“min-p”阈值自适应调整,增强过滤策略的鲁棒性和适应性。
选择性正则化机制:仅对低概率且负优势(负反馈)的推理火花施加正则化,避免对正向学习信号产生干扰,保持训练灵活性。
理论基础扎实:基于LLMs内在置信度区分有意义探索词与噪声词的统计特征,提供了正则化设计的理论支撑。
- 与现有方法对比
Lp-Reg克服了传统基于策略整体熵的间接调控方法的缺陷,避免了无差别放大噪声导致的训练不稳定。相比多种先进熵控制技术,Lp-Reg更精准地维护了探索的核心成分,实现了更稳定和有效的训练过程。
实验设计与结果分析
- 实验设计
在两个规模的Qwen模型(14B与32B)上,采用五个数学推理基准(AIME24、AIME25、MATH-500、OlympiadBench、MinervaMath)进行评测。对比基线包括GRPO、GRPO+EntropyLoss及多种先进熵控制方法。训练使用统一框架和相同超参数设置,确保公平比较。重点考察模型在长达1000步训练过程中的稳定性、策略熵动态及最终准确率。
- 结果分析
性能提升显著:Lp-Reg在14B模型上实现60.17%的平均准确率,较次优方法提升2.66%。在32B模型上也表现出色,证明方法的规模适应性。
训练稳定性优越:Lp-Reg能维持稳定的探索状态,避免策略熵的快速崩塌,支持长周期的on-policy训练,而其他方法多在早期崩溃。
探索行为合理:通过概率-熵散点图和推理火花频率分析,Lp-Reg保持了推理火花的多样性和合理采样,避免了无意义噪声的放大。
消融实验验证设计合理性:去除噪声过滤阈值导致训练不稳定,固定阈值不如动态阈值表现优异,验证了核心组件及自适应策略的必要性。
结论与展望
- 研究贡献总结
本文首次揭示了RLVR中推理火花被系统性压制导致探索崩溃的根本机制,提出了基于模型内在置信度的低概率正则化方法,有效保护关键探索路径,提升了推理模型的训练稳定性和最终性能。实验结果表明,Lp-Reg不仅在多个基准和模型规模上实现了性能领先,还显著延长了稳定训练周期。
- 局限性与未来方向
目前Lp-Reg依赖于概率阈值的设定和模型内在置信度的区分能力,未来可探索更细粒度的噪声识别机制及动态调整策略。此外,方法主要验证于数学推理任务,后续可扩展至更广泛的复杂推理和自然语言生成场景。结合更丰富的奖励信号和多模态信息,或将进一步提升探索效率和模型泛化能力。
- 方法展望
未来研究可聚焦于自动化噪声与推理火花的区分机制,融合强化学习与自监督学习的优势,构建更智能的探索调控框架。同时,探索跨任务、跨模型的通用性和适应性,推动RLVR技术在更广泛领域的应用与发展。
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
2025-10-09|Meta Superintelligence Labs, JHU|🔺33
http://arxiv.org/abs/2510.08240v1
https://huggingface.co/papers/2510.08240
研究背景与意义
- 问题定义与挑战
本文聚焦于大型语言模型(LLMs)在安全性与有用性之间的核心矛盾:一方面,模型易受对抗攻击,生成不安全内容;另一方面,为避免风险,模型往往对敏感但无害的提示过度拒绝(overrefusal),导致用户体验下降。现有的安全防护机制(如独立的安全守卫模型)通常通过完全拒绝含有潜在风险的内容来保障安全,但这加剧了过度拒绝问题,且缺乏对拒绝原因的细致指导。
- 研究目标
本文旨在提出一种能够协调安全与有用性的多智能体协作训练框架,实现安全对齐的“正和游戏”,使模型在保证安全的同时最大限度地减少过度拒绝,并提升反馈的细致性和有效性。
研究方法与创新
- WaltzRL框架设计
该方法构建了两个协作智能体:对话智能体负责生成回答,反馈智能体负责审查并提供安全及拒绝相关的反馈建议。二者通过多轮交互共同优化回答。核心创新在于将安全对齐建模为一个正和多智能体强化学习问题,强调协作而非竞争。
- 动态改进奖励(DIR)机制
反馈智能体的奖励设计为基于对话智能体在接受反馈后的改进幅度,即反馈导致回答从不安全或过度拒绝向安全且有用转变的程度。该奖励动态调整,鼓励反馈智能体产生有助于改进对话智能体回答的建议。
- 两阶段训练策略
- 第一阶段冻结对话智能体,仅训练反馈智能体以准确识别不安全与过度拒绝情况及生成格式规范的反馈。
- 第二阶段联合训练两个智能体,取消反馈智能体的标签奖励以避免过拟合,强化协同改进能力。
- 推理时自适应反馈机制反馈智能体仅在检测到对话智能体回答存在安全或拒绝问题时介入,避免不必要的反馈,降低延迟,保持对安全提示的灵敏响应。
- 多轮反馈与协作允许多轮反馈与回答修正,提升模型对复杂安全边界和模糊提示的处理能力,区别于传统单轮拒绝机制。
实验设计与结果分析
- 实验设置
- 使用Llama-3.1-8B-Instruct作为基础模型,收集包含对抗攻击和边界过度拒绝提示的训练数据。
- 评估指标涵盖安全性(攻击成功率ASR)、过度拒绝率(ORR)、指令遵循能力和通用能力,以及反馈触发率(FTR)以衡量效率。
- 性能表现
- WaltzRL在五个多样化数据集上显著降低了不安全回答率(例如WildJailbreak从39.0%降至4.6%)和过度拒绝率(例如OR-Bench从45.3%降至9.9%),优于多种基线方法,包括单模型强化学习和传统守卫模型。
- 即使未在训练中引入帮助性提示,WaltzRL仍保持了对话智能体的指令遵循和通用能力,几乎无性能损失。
- 反馈智能体的标签预测准确率显著提升,反馈触发率大幅降低,显示了推理时反馈的高效自适应性。
- 消融研究
- 动态改进奖励中结合标签奖励对维持反馈智能体标签预测准确性至关重要。
- 两阶段训练策略有效避免了训练过程中的数据不平衡和过拟合,提升了反馈的实用性和协作效果。
- 反馈机制不仅减少了不安全和过度拒绝回答,还通过详细反馈指导对话智能体生成更合理的回答。
- 定性分析
反馈智能体能够生成具体且有说服力的改进建议,甚至引导对话智能体引用理想回答,展现出协作智能体间的复杂互动与策略性。
结论与展望
- 主要贡献
- 提出WaltzRL,一种基于多智能体强化学习的安全对齐框架,通过协作正和游戏显著推动了安全性与有用性的Pareto前沿。
- 创新设计动态改进奖励机制,促进反馈智能体有效引导对话智能体改进回答。
- 采用两阶段训练策略与自适应反馈机制,实现了安全提升与性能保持的良好平衡。
- 未来方向
- 探索训练通用反馈智能体,可适配多种对话智能体,提升方法的泛化能力和部署灵活性。
- 扩展多轮反馈机制,进一步提升模型处理复杂安全边界的能力。
- 结合更多现实场景和多模态输入,增强系统在实际应用中的鲁棒性和实用性。
- 伦理考量本研究旨在提升LLM的安全性和责任感,强调研究目的,提醒实际应用中需配合严格的安全测试和监控措施,避免潜在风险。
综上,WaltzRL通过多智能体协作与动态奖励机制,创新性地解决了大型语言模型在安全与有用性之间的平衡难题,展示了强化学习在AI安全领域的巨大潜力和应用前景。
Training-Free Group Relative Policy Optimization
2025-10-09|Youtu-AgentTeam|🔺31
http://arxiv.org/abs/2510.08191v1
https://huggingface.co/papers/2510.08191
https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
研究背景与意义
- 问题定义与现状
大型语言模型(LLM)作为通用智能体,具备在复杂环境中解决多样任务的能力,但在专业领域中表现常受限于对外部工具的集成和特定提示策略的适应性不足。现有强化学习(RL)方法如基于参数微调的GRPO虽能提升性能,但计算成本高昂,且容易过拟合,限制了其实际应用。
- 挑战与目标
参数微调方法面临计算资源消耗大、数据需求高、泛化能力差及收益递减等问题。论文旨在探索非参数化的策略优化方法,降低训练成本和数据需求,同时保持模型的泛化能力和性能。
- 研究意义
通过提出无需参数更新的训练范式,论文为LLM在专业领域的高效适应提供了新路径,解决了传统RL方法的瓶颈,具有重要的理论价值和广泛的应用前景。
研究方法与创新
- 核心方法描述提出Training-Free Group Relative Policy Optimization(Training-Free GRPO),该方法通过多轮生成输出组(rollouts),利用LLM自身进行语义优势(semantic advantage)的内省和提炼,形成并更新外部的经验知识库(token prior),以此引导模型行为,无需参数更新。
- 创新点详解
- 非参数化策略优化:将策略优化从参数空间转移到上下文空间,通过动态更新的语义经验库实现类似GRPO的效果,避免了昂贵的梯度计算和模型微调。
- 语义组优势替代数值优势:利用自然语言形式的经验总结替代传统的数值奖励优势,增强了模型对不同输出间质量差异的理解与利用。
- 多步多组学习机制:采用多轮多组输出比较,持续优化经验库,提升了经验的丰富性和泛化能力。
- 高效数据利用:仅需少量训练样本(几十个),即可显著提升模型性能,极大降低了数据和计算资源需求。
- 理论基础与优势对比
该方法基于LLM强大的上下文学习能力和推理能力,利用内省机制实现经验知识的积累与利用,兼具RL的策略优化优势和无微调的轻量级特点。相比传统GRPO和其他RL方法,Training-Free GRPO在成本、泛化和实用性上具有显著优势。
实验设计与结果分析
- 实验设置
- 任务与数据:涵盖数学推理(AIME2024/2025)、网页搜索(WebWalkerQA)等复杂领域,训练集规模极小(约100样本)。
- 模型与基线:使用DeepSeek-V3.1-Terminus等大型冻结模型,比较传统参数微调的GRPO、ReAct等方法。
- 评估指标:主要采用Mean@32、Pass@1等准确率指标,结合统计显著性和多场景表现进行综合评估。
- 关键结果
- Training-Free GRPO在数学推理任务中,相较于无训练的基线提升2.7%-5.4%,超越了需大规模数据和昂贵计算的传统RL方法。
- 在网页搜索任务中,提升了4.6%的Pass@1表现,显示出跨领域的适用性和稳健性。
- 消融实验表明,语义组优势、多轮学习和经验库优化均为性能提升的关键因素。
- 训练成本仅为传统方法的千分之一左右(约18美元),极大提升了经济效益。
- 多场景表现与泛化该方法在不同模型规模和任务域均表现出一致的性能提升,且无需针对每个领域进行参数微调,展示了优越的跨域泛化能力。
结论与展望
- 研究贡献总结
本文创新性地提出了一种无需参数更新的强化学习策略优化范式——Training-Free GRPO,通过语义优势引导和经验库更新,实现了对大型语言模型行为的高效调控。该方法在多个复杂任务上显著提升了性能,且极大降低了训练数据和计算资源需求。
- 局限性分析
- 依赖于基础模型的推理和工具使用能力,较弱模型效果有限。
- 语义优势的提炼质量受限于经验库的构建和更新策略,未来可探索更精细的知识表示与管理。
- 当前实验主要聚焦于数学和网页搜索领域,其他专业领域的适用性有待进一步验证。
3.未来研究方向
- 探索更丰富的语义经验表示和自动化更新机制,提升经验库的表达力和适应性。
- 结合更多类型的外部工具和多模态信息,扩展方法的应用范围。
- 设计更高效的训练策略和并行机制,进一步降低资源消耗。
- 深入研究跨领域迁移和终身学习能力,推动LLM智能体的持续自我优化。
本文转载自AI研究前瞻,作者:胡耀淇
