
跨领域强化学习样本数据集;符号表达的分层推理基准
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
2025-06-18|MSRC-UK, Microsoft Research India|ICML 2025|🔺2
http://arxiv.org/abs/2506.15455v1
https://huggingface.co/papers/2506.15455
研究背景与意义
- 问题定义与现状
当前大型语言模型(LLMs)在多种推理基准测试中表现出较高准确率,但仍存在争议,即这些结果是否源自真正的推理能力,还是仅仅是训练数据的统计记忆。推理作为一种认知过程,涉及基于事实或前提进行推断,区别于简单的模式匹配。
- 挑战与目标
现有推理评估多依赖固定基准,且通常缺乏系统性和可扩展性,难以全面反映模型的推理层级和泛化能力。本文旨在构建一个基于符号表达的分层推理评估框架——RE-IMAGINE,系统化地生成多层次、可扩展的推理问题变体,进而揭示和量化LLMs的真实推理能力和局限。
研究方法与创新
- 技术描述
RE-IMAGINE框架基于Pearl的因果推理阶梯理论,提出三层推理层级:“观察”(Observe)、“变异”(Mutate)和“想象”(Imagine),分别对应模型对原始问题的解答能力、对问题变体的泛化能力以及对新逻辑整合的能力。框架设计了自动化的符号表示转换和变异生成流水线,支持从自然语言问题到符号代码的双向转换,并通过符号计算图进行多种变异操作。
- 创新点
统一分层推理体系:首次将推理能力划分为三层,系统整合了之前零散的变异测试方法,明确区分了不同推理能力的评估目标。
可扩展自动变异流水线:实现了跨多个领域(数学、因果推理、代码理解等)的自动化、可执行的符号变异生成,极大提升了评估规模和多样性,降低了人工干预。
结合因果推理度量:引入了基于二元反事实的因果一致性指标(必要性和充分性不一致率),丰富了推理能力的定量评估手段。
- 优势与对比相较于以往依赖手工设计模板或固定基准的评估,RE-IMAGINE能够生成海量“未见过”的问题变体,避免训练数据泄露带来的记忆偏差,更全面地考察模型的推理泛化和创新能力。其自动化流水线和统一层级框架为未来推理评估树立了标准。
实验设计与结果分析
- 实验设计
- 选取四个主流推理基准:GSM8K(数学)、CLadder(因果推理)、CRUXEval和Loop(代码理解)。
- 对原始问题进行三层次变异,生成大量自动标注的变体问题。
- 测试多款主流LLM(包括GPT系列、Llama、Phi等),采用8-shot链式思考提示。
- 评估指标包括准确率、反事实推理一致性指标(N-IR、S-IR)等。
- 主要结果
- 模型在原始问题(Level-1)上表现较好,准确率普遍较高。
- Level-2变异(轻微修改问题参数或添加无关信息)导致模型性能明显下降,揭示模型对简单变异的泛化能力有限。
- Level-3变异(引入新逻辑或反事实条件)对模型构成更大挑战,性能大幅下滑,表明模型难以有效整合和推理复杂新信息。
- 反事实指标显示,尽管部分模型如GPT-4o表现较优,但整体仍存在因果推理能力不足问题。
- 代码理解任务中,尽管变异设计尽量保持代码复杂度不变,模型表现仍显著下降,表明记忆与泛化之间的权衡问题普遍存在。
- 引入变异样例作为上下文示例能有效提升模型对变异问题的适应能力,说明训练和提示策略对推理泛化影响显著。
- 统计显著性与多场景表现
- 通过多组样本和多模型验证,结果具有统计显著性,且跨数学、因果和代码领域均表现一致,表明RE-IMAGINE框架的通用性和有效性。
结论与展望
- 总结贡献
RE-IMAGINE实现了对LLMs推理能力的系统、层级化评估,明确揭示了当前模型在面对复杂变异时的性能瓶颈和记忆依赖问题。该框架推动了推理评估从静态基准向动态、多样化、因果逻辑驱动的方向转变。
- 局限分析
- 当前变异主要基于符号代码层面,部分自然语言表达的复杂性和多样性尚未充分覆盖。
- 评估集中于数学、因果和代码领域,尚需扩展到更多推理类型和实际应用场景。
- 反事实推理指标计算成本较高,限制了大规模应用。
- 未来展望
- 推动RE-IMAGINE向更广泛的推理任务和多模态场景扩展,提升评估的全面性。
- 结合模型训练过程,探索如何利用变异生成技术提升模型的推理泛化能力。
- 优化因果推理指标的计算效率,促进其在实际评估中的广泛应用。
- 利用该框架促进开发更具鲁棒性和真正推理能力的AI系统,推动AI安全和可信赖性研究。
综上,RE-IMAGINE为理解和提升大型语言模型的推理能力提供了坚实的理论基础和实践工具,具有重要的学术价值和应用前景。
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
2025-06-17|UC San Diego, MBZUAI, Carnegie Mellon U, Purdue U|🔺31
http://arxiv.org/abs/2506.14965v1
https://huggingface.co/papers/2506.14965
https://github.com/LLM360/Reasoning360
研究背景与意义
- 研究背景
近年来,强化学习(RL)被广泛应用于提升大型语言模型(LLM)的推理能力,尤其在数学和编程领域取得显著进展。然而,现有研究多聚焦于这两个狭窄领域,限制了对RL在更广泛推理任务中适用性的理解。跨领域推理的RL研究受到缺乏可靠且可扩展的奖励信号的制约,导致模型在多样推理任务中的表现和泛化能力受限。
- 研究意义
本研究提出了GURU数据集——一个涵盖数学、代码、科学、逻辑、模拟和表格六大推理领域的92K条经严格筛选和验证的强化学习训练样本。GURU不仅弥补了多领域推理训练数据的缺失,也为系统研究RL在不同推理领域的适用性和机制提供了基础。通过此数据集,研究者能够更全面地理解RL如何促进LLM的推理技能提升,推动通用推理能力的发展。
研究方法与创新
- 数据集构建与创新
研究团队设计了严谨的数据处理流水线,包括多源数据采集、去重、领域特定奖励函数设计、启发式及模型驱动的过滤,以及难度过滤,确保训练样本的高质量和奖励信号的准确性。创新点在于跨领域覆盖广泛,奖励设计多样(规则匹配、代码执行验证、模型判别验证),有效解决了多领域推理中奖励信号不足和数据噪声问题。
- 强化学习训练策略
基于GURU数据集,作者对Qwen系列模型(7B与32B参数规模)进行了单领域与混合领域的强化学习训练。通过系统性对比,揭示了RL在不同领域的表现差异,首次明确了预训练覆盖度对RL跨领域转移能力的影响:数学、代码、科学领域因预训练数据丰富,能通过跨领域训练快速提升;而逻辑、模拟、表格等领域因预训练覆盖不足,需依赖领域内训练实现实质性技能增长。
- 理论贡献与优势
本研究突破了以往只关注数学和代码领域的局限,提出了多领域RL训练的新范式,强调了领域特异性和跨领域数据混合训练的重要性。通过细致的奖励设计与数据筛选,提升了RL训练的稳定性和效果,促进了模型对复杂推理任务的适应能力。相比现有方法,GURU及其训练策略显著提高了模型的通用推理性能和泛化能力。
实验设计与结果分析
- 实验设计
实验采用GURU数据集中的单领域3K样本和混合领域18K样本,分别对Qwen2.5-7B和32B基模型进行RL训练。评估涵盖17个任务,跨六大推理领域,综合考察模型在本领域和跨领域的表现。训练过程中监控奖励信号和响应长度变化,分析训练难度对性能的影响。
- 结果分析
- 跨领域转移能力差异显著:数学、代码、科学领域表现出强烈的跨领域转移能力,训练于任一领域均有助于提升其他两个领域的性能;而逻辑、模拟、表格领域仅在本领域训练时表现明显提升,表明这些领域需要专门的领域内训练来获得技能增长。
- 混合领域训练效果优异:将所有领域样本混合训练,模型表现达到或超过单领域训练效果,显示多领域数据的融合能够促进模型获得更广泛的推理能力。
- 奖励与响应长度动态:不同领域RL训练对响应长度的影响存在差异,部分领域如数学和科学倾向于生成更长答案,而代码和逻辑领域则可能缩短输出,说明RL训练调整了模型的表达策略以适应任务需求。
- 训练难度过滤的双刃剑效应:针对数学领域,筛选高难度样本提升了本领域性能,但对跨领域简单任务产生负面影响,提示训练数据难度的平衡对于提升泛化能力至关重要。
- 统计显著性与多场景表现GURU-7B和GURU-32B模型在17个任务上的平均准确率分别领先最优公开基线7.9%和6.7%。尤其在复杂且预训练中较少出现的任务(如ZebraPuzzle)中,模型表现出显著提升,验证了RL训练扩展模型推理边界的能力。
结论与展望
- 总结贡献
本研究首次构建了涵盖六大推理领域的高质量强化学习数据集GURU,系统揭示了RL训练在不同推理领域的表现差异和机制,提出了多领域混合训练的有效策略,显著提升了开放模型的通用推理能力。GURU-7B/32B模型刷新了公开数据训练模型的性能纪录,推动了LLM推理研究的多领域发展。
- 局限性分析
尽管GURU数据集广泛且精细,但仍存在领域覆盖不全、奖励设计依赖预定义规则或判别模型的局限。此外,混合领域训练的长期影响及多领域间潜在的干扰效应尚需进一步探究,尤其在更多领域和更大规模模型上的适用性有待验证。
- 未来展望
未来研究可聚焦于:
- 设计更为灵活和自适应的奖励机制,提升开放式推理任务的评价准确性和多样性;
- 探索更精细的领域平衡和样本难度调控策略,优化跨领域知识迁移和泛化;
- 扩展GURU数据集覆盖更多推理类型和实际应用场景,推动RL在LLM推理中的普适性提升;
- 结合其他训练范式(如监督学习、对比学习)与RL融合,构建更强大的通用推理模型。
本研究为多领域强化学习推动LLM推理能力提供了坚实基础,期待后续工作在理论和应用层面持续深化和拓展。
本文转载自AI研究前瞻,作者:胡耀淇
