FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%

发布于 2025-6-19 07:37
浏览
0收藏

大型语言模型(LLMs)在金融、医疗、法律、教育和科学发现等领域表现出色,但在专业金融任务中仍存在性能不足。

本文提出FinLoRA基准,评估不同LoRA变体在复杂金融任务中的表现。创建19个金融数据集,包括4个新XBRL分析数据集,支持LoRA方法的评估。实施并比较五种LoRA方法,平均提高36%准确率,验证低秩适应和量化的有效性。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

摘要

FinLoRA项目基于LoRA方法,评估其在金融领域的应用,特别是CFA考试和SEC文件分析。研究中使用了19个金融数据集,包括4个基于150份SEC文件的新XBRL分析数据集。评估了5种LoRA方法和5种基础LLM,结果显示LoRA方法在性能上平均提升36%。提供了准确率、F1、BERTScore等实验结果,以及在微调和推理阶段的计算成本。FinLoRA旨在普及金融智能化。

简介

大型语言模型(LLMs)在金融、医疗、法律、教育和科学发现等领域表现出色,但在专业金融任务中仍存在性能不足。完全微调计算成本高,参数高效微调(PEFT)如低秩适应(LoRA)成为可行解决方案,能提升LLMs在特定领域的表现。

FinLoRA是一个新基准,评估不同LoRA变体在复杂金融任务中的表现,特别是XBRL数据分析。本研究创建19个金融数据集,包括4个新XBRL分析数据集,支持LoRA方法的评估。实施并比较五种LoRA方法,平均提高36%准确率,验证低秩适应和量化的有效性。进行了46轮微调和194轮评估,从多个角度分析LoRA方法的表现和资源需求。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

LLMs是否需要对财务任务进行微调?

虽然通用LLMs表现出优秀的NLP能力,但它们在复杂的财务任务上的表现往往不足。

缺乏高质量金融数据:通用LLM的预训练数据集(如The Pile)主要来自一般网络爬虫,缺乏专门的金融数据,需通过针对性微调以获取复杂金融分析所需的理解。

通用LLM在专业金融任务中的不足:通用LLM在处理需要深厚领域知识的任务(如XBRL分析)时表现不佳,常因表面关键词匹配而出错,微调后可显著改善。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

成本与时间:从零开始训练模型(如BloombergGPT)成本高达270万美元且耗时253天,使用LoRA方法微调现有模型更具经济性和时间效率。

FinLoRA基准

基准任务、数据集和指标

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

任务类型:一般金融任务、金融证书、财务报告、财务报表分析。

公共金融数据集:FinLoRA包含15个数据集。

  • 情感分析:FPB、FiQA SA、TFNS、NWGI,包含金融文本和情感标签。
  • 标题分析:Headline数据集,基于问题将金融标题分类为“是”或“否”。
  • 命名实体识别:NER数据集,标注地点、人物、组织。
  • 金融证书:CFA和CPA相关证书。
  • 财务报告:XBRL术语、FiNER、FNXL。
  • 财务报表分析:Financial Math和FinanceBench。

新增四个XBRL分析数据集:基于2019-2023年道琼斯30家公司年报,包含问题、相关XBRL文本片段和答案。数据集任务类型:

  • XBRL标签提取:根据自然语言描述提取特定XBRL标签。
  • XBRL数值提取:根据自然语言描述提取数值。
  • XBRL公式构建:识别相关事实和标签,构建标准财务公式。
  • XBRL公式计算:将数值代入公式并计算结果。

数据集构建流程:将财务任务分类为九类,为每类创建训练集,使用2019-2023年道琼斯30家公司10-K报告生成问题,自动过滤相关XBRL文件片段。

评估指标:使用准确匹配(EM)评估LLM输出,报告准确率和加权F1分数,XBRL术语和FinanceBench使用BERTScore F1。

基础模型和LoRA方法

基准模型:评估了Llama 3.1 8B Instruct和Gemini 2.0 Flash Lite的LoRA微调性能,另外还评估了Llama 3.1 70B Instruct、DeepSeek V3和GPT-4o作为基模型。

LoRA方法:

  • Vanilla LoRA:通过低秩分解引入可训练权重,保持预训练模型权重不变。
  • QLoRA:使用4位量化减少内存,动态去量化权重。
  • DoRA:将权重分解为幅度向量和方向矩阵,仅更新方向矩阵,保持参数数量与LoRA相同。
  • rsLoRA:使用稳定的缩放因子,增强高秩任务的梯度稳定性。
  • LoRA与联邦学习:在金融领域,允许多个机构在不共享数据的情况下,通过本地数据微调模型并聚合LoRA更新。

基准的角度

LoRA方法性能评估:比较LoRA、QLoRA、rsLoRA、DoRA与Gemini 2.0 Flash Lite在金融任务中的表现,评估其相对SOTA模型的效果。

LoRA适用性研究:探讨不同金融任务(如情感分析、XBRL标记与分析)对LoRA微调的响应性及数据集特性。

资源与成本比较:分析不同LoRA方法的微调成本及推理速度,评估其在实时金融应用中的延迟和吞吐量优势。

实际部署考虑:

  • 数据隐私:研究在多机构协作训练中如何通过联邦学习保护数据隐私,比较本地LoRA微调与集中训练的表现。
  • 灾难性遗忘:评估LoRA微调对模型通用知识的影响,通过MMLU等基准测试量化性能变化。

实验结果

实验在四个NVIDIA A5000 GPU上进行,使用不同的推理和微调API。针对每种LoRA方法,基于任务类别合并训练集微调了9个LoRA适配器,学习率为1e-4,批量大小为2-8。推理时温度设置为0.0,共进行了46轮微调和194轮评估。

角度一:LoRA方法在金融数据集上的性能

Vanilla LoRA(8位,秩8)在整体平均分上表现最佳(74.74),比Llama 3.1 8B基模型(37.05)提高了37.69%。Vanilla LoRA在一般金融任务中优于其他LoRA变体,而rsLoRA在金融分析、报告和财务报表分析中表现最佳。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

rsLoRA在高秩下表现更佳,设置r=8以提高内存效率,尽管在低秩下略逊于LoRA和QLoRA,但在高秩(如r=64)时能显著降低困惑度,捕捉更多细节。

DoRA的表现不如其他LoRA方法,因更新幅度向量和方向矩阵使用相同学习率导致训练不足,建议为幅度向量设置更高的学习率以提高性能。

LoRA调优的Llama 3.1 8B模型在大多数数据集上表现优于SOTA基线模型,尽管在NWGI和FNXL上表现不佳;与Gemini 2.0 FL模型相比,Llama 3.1在金融分析和XBRL数据分析任务上表现更强。

角度二:财务任务LoRA适用性

LoRA在不同金融任务中的效果差异明显,XBRL分析任务的性能提升显著,而FinanceBench的提升有限。XBRL数据的标准化语义和分类法为LLM提供了更结构化的学习环境,促进了更有效的适应。FinanceBench依赖于缺乏丰富标准化元数据的OCR处理PDF数据,导致效果不佳。XBRL在金融报告分析中对LLM集成的有效性至关重要。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

角度三:LoRA方法的资源使用和性能权衡

LoRA微调模型的计算成本:使用四个NVIDIA A5000 GPU,微调时间为14.1小时(QLoRA)至15.9小时(DoRA),总GPU小时约为56.4至63.6小时,成本约为$14.66至$16.54。该成本显著低于Google或OpenAI的微调服务。Gemini API在推理延迟上表现更优,对增加的提示长度不敏感,尽管考虑到网络开销。本地部署的Llama 3.1 8B Instruct推理速度可通过增大批量大小显著提升。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

角度四:LoRA在真实金融场景中的实用性

Federated LoRA: 在四节点环境中评估了Federated LoRA,使用FedAvg算法,结果显示其性能优于基础Llama模型,但不及集中式LoRA。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

灾难性遗忘: 评估了8个适配器在MMLU和GSM8K基准上的表现,结果显示所有适配器与基础模型在MMLU上准确率相同,GSM8K上表现更佳,表明LoRA没有出现灾难性遗忘,且可能存在跨领域知识转移。

FinLoRA:在金融数据集上微调LLM的基准LoRA方法,性能提升36%-AI.x社区

总结

本文提出FinLoRA基准,评估LoRA方法在一般和专业金融任务上的表现。收集了19个多样化的数据集,涵盖广泛的金融应用。进行了46轮微调和194轮评估,全面分析常用LoRA方法。提供整体性能、任务特定结果、微调和推理的资源需求及实际部署考虑(如数据隐私和灾难性遗忘)。结果显示微调显著提升LLM在金融任务上的有效性。FinLoRA提供数据集和基线结果,为未来研究奠定基础。计划通过纳入更多LoRA方法扩展FinLoRA。

本文转载自​灵度智能​,作者:灵度智能

已于2025-6-19 09:33:27修改
收藏
回复
举报
回复
相关推荐