DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1

发布于 2025-4-27 00:24
浏览
0收藏

大型语言模型(LLMs)在推理能力上的进展引发了对其在复杂任务中表现的关注,尤其是在金融领域。DianJin-R1是一个针对金融领域的推理增强框架,通过推理增强监督和强化学习,提升金融推理任务的表现。

DianJin-R1模型在金融测试集(CFLUE、FinQA、CCC)上显著优于基础模型,尤其在CFLUE和CCC上表现突出,DianJin-R1-32B在CFLUE上准确率从77.95提升至86.74,CCC上从56.50提升至96.00,超越DeepSeek-R1。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

摘要

DianJin-R1是一个针对金融领域的推理增强框架,旨在解决大语言模型在该领域的推理挑战。该框架使用DianJin-R1Data数据集,结合CFLUE、FinQA和中国合规检查(CCC)数据,涵盖多样的金融推理场景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5进行微调,采用结构化格式生成推理步骤和最终答案。通过应用群体相对策略优化(GRPO)强化学习,模型获得了结构化输出和答案正确性的双重奖励信号。

在五个基准测试上,DianJin-R1模型在复杂金融任务中表现优于非推理模型,尤其在真实世界的CCC数据集上,单次推理模型的表现超过多代理系统。DianJin-R1展示了通过结构化监督和奖励对齐学习提升金融推理的有效性,提供了可扩展的实际应用解决方案。

简介

大型语言模型(LLMs)在推理能力上的进展引发了对其在复杂任务中表现的关注,尤其是在金融领域。DianJin-R1模型通过推理增强监督和强化学习,提升金融推理任务的表现。构建了高质量的推理数据集DianJin-R1-Data,来源包括CFLUE、FinQA和合规性数据集CCC。采用GPT-4o进行验证,确保生成答案与推理步骤的一致性。

DianJin-R1-7B和DianJin-R1-32B模型通过结构化输出格式进行监督微调,并使用GRPO强化学习算法优化推理质量。在CFLUE、FinQA、CCC等基准测试中,DianJin-R1模型表现优于非推理模型,尤其在金融领域。实际应用中,基于LLMs的多代理系统在CCC数据集上进行条件合规检查,整合中间推理步骤以得出最终判断。DianJin-R1结合高质量监督、结构化推理生成和奖励驱动的强化学习,提供了一种可扩展的金融推理增强策略。

DianJin-R1-Data建设

数据源

CFLUE数据集。包含38,638道金融考试多选题,经过长度、难度和模糊性三步筛选,确保问题清晰且具备深度推理能力,适合评估LLMs的金融推理能力。

FinQA数据集。包含8,281个金融问答对,经过相同的长度和难度筛选,适合评估英语金融推理。

CCC数据集。内部数据集,评估服务代理的合规性,包含客户与服务代理的对话,经过人工审核,确保合规与非合规案例的平衡分布。

推理数据集构建

针对CCC、CFLUE和FinQA数据集的差异,采用不同的推理构建方法。

CFLUE问题的推理生成

定义DCFLUE MCQ为包含问题、解释和答案的多选题数据集。使用GPT-4o将DCFLUE MCQ中的多选题转换为开放式问题,生成DCFLUE OE数据集。利用DeepSeek-R1生成推理链和预测答案,并用GPT-4o验证答案和推理的一致性。满足条件的实例保留为有效推理样本,未满足的实例最多重试3次,最终未成功的实例归为难题样本。

生成的推理增强数据集为RCFLUE MQC,难题数据集为GCFLUE MQC。对DCFLUE OE应用相同流程,生成RCFLUE OE和GCFLUE OE数据集。

FinQA问题的推理生成

FinQA数据集的QA对已为开放式格式,表示为D FinQA。将CFLUE中的推理生成过程应用于D FinQA,得到推理增强数据集R FinQA。生成的非推理数据集为G FinQA。

基于多Agent的CCC对话推理生成

CCC数据集DCCC包含对话x_i及其对应的合规性判断答案y_i,判断过程复杂,需遵循指导原则。开发了一个工作流程,从开始节点到两个结果节点,评估合规性违规与否。

使用多代理LLM系统生成推理,采用Qwen2.5-72B-Instruct为每个条件节点生成中间推理链(CoTs)和答案。最终答案a_i由结果节点决定,若与金标准答案y_i匹配,则合并中间推理链生成统一推理r_i。若不匹配,最多重试T次,生成的推理增强数据集为RCC,未增强数据集为GCC。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

模型训练

训练大型语言模型(LLMs)进行金融推理分为两个阶段:

  • 通过监督微调(SFT)学习推理。
  • 通过强化学习(RL)增强推理能力。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

使用SFT学习推理

使用R CFLUE MCQ、RCFLUE OE、R FinQA和RCCC数据集对LLMs进行微调,以生成推理链(CoT)和最终答案。每个训练实例包含问题x、推理路径r和答案y。在微调过程中,问题x作为模型输入,推理r和答案y作为目标输出,帮助模型学习生成连贯的推理步骤和正确的解决方案。

使用强化学习增加推理能力

GCFLUE MCQ数据集用于强化学习(RL),旨在提升推理能力。采用Group Relative Policy Optimization(GRPO)算法,结合两种奖励机制:

  • 格式奖励:输出需包含一个推理段(...)和一个最终答案(...),格式正确得1分,错误得0分。
  • 准确性奖励:若标签内内容与参考答案完全一致,得1分;否则得0分,鼓励生成准确答案。

实验

实验设置

DianJin-R1-Data的统计信息总结在表1中,CFLUE MCQ占SFT数据的大部分,数据经过洗牌以防止过拟合。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

模型训练分为两个阶段,使用NVIDIA A100 GPU,7B模型在单节点8 GPU上训练,32B模型在4节点32 GPU上训练。SFT阶段使用DeepSpeed的Zero-3优化,学习率1.0 × 10^-5,序列长度16K,bf16精度,训练3个epoch,梯度累积16步。RL阶段每个样本进行8次回合,训练批量大小1024,回合批量大小256,学习率1.0 × 10^-6,采样温度0.6,训练5个epoch。

评估模型使用三个金融基准数据集:CFLUE、FinQA和自有数据集CCC,以及两个推理能力评估基准:MATH500和GPQA-Diamond。报告准确率,即正确回答问题的比例,并计算所有测试集的平均准确率。CFLUE和CCC为中文数据集,其余为英文。FinQA和CCC的答案正确性由GPT-4o评估,其他数据集通过规则方法提取答案并与标准答案比较。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

基线模型分为两类:一类为无明确推理能力的通用LLM(如GPT-4o、DeepSeekV3等);另一类为具备推理能力的通用LLM(如DeepSeek-R1及其衍生模型)。

结果

DianJin-R1模型在金融测试集(CFLUE、FinQA、CCC)上显著优于基础模型,尤其在CFLUE和CCC上表现突出,DianJin-R1-32B在CFLUE上准确率从77.95提升至86.74,CCC上从56.50提升至96.00,超越DeepSeek-R1。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

在一般领域测试集(MATH-500、GPQA-Diamond)上,DianJin-R1模型也有提升,但由于未使用一般领域推理数据,表现仍低于大型模型或经过一般推理数据微调的模型。

一般推理模型(如DeepSeek-R1、QwQ-32B)在一般推理基准上表现优异,但在金融基准上不一定更好,DeepSeek-R1在CFLUE和CCC上优于DeepSeek-V3,但在FinQA上表现下降,DeepSeek-R1-Distill-Qwen-7B在所有金融测试集上均不及Qwen-2.5-7B-Instruct。

讨论

SFT显著提升了模型在所有数据集上的表现,增强了推理能力。RL在所有数据集上均有改善,唯独FinQA例外,可能因RL实例为中文,FinQA为英文,未来将加入英文示例。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

SFT使用的三个数据源为CFLUE、FinQA和CCC,其中CFLUE对性能影响最大,包含31,000多个推理实例,单独使用时准确率从59.26提升至65.67。添加FinQA或CCC主要提升各自测试集的表现,对整体影响有限。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

多代理LLM系统用于检测CCC数据集中的合规性违规,采用条件节点的推理生成工作流程。引入多代理方法后,准确率从55.50提升至95.00,显示出结构化推理的有效性,但平均每个实例需8.15次API调用。DianJin-R1-7B和DianJin-R1-32B模型在仅一次API调用的情况下,表现出与多代理方法相当或更优的性能,体现了有效推理和组织推理路径的能力。

DianJin-R1:金融领域推理增强大模型,全面超越DeepSeek-R1-AI.x社区

总结和未来工作

DianJin-R1是一个针对金融领域的大型语言模型的推理增强框架,结合结构化监督和强化学习算法(GRPO),提升复杂金融和合规任务的表现。实验表明,推理感知训练显著提高了模型的准确性和可解释性。

本文转载自​​灵度智能​​,作者:灵度智能

收藏
回复
举报
回复
相关推荐