FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o

发布于 2025-7-24 07:41
浏览
0收藏

金融行业对大型语言模型(LLMs)提出了独特挑战,现有模型在复杂金融问题上表现不足。本文提出FinTeam,一个金融多智能体协作系统,包含文档分析师、分析师、会计师和顾问四个LLM代理。人工评估显示,FinTeam生成的财务报告接受率为62.00%,优于基线模型GPT-4o和Xuanyuan。FinTeam的代理在FinCUGE上平均提升7.43%,在FinEval上提升2.06%准确率。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

摘要

本文提出FinTeam,一个金融多智能体协作系统,包含文档分析师、分析师、会计师和顾问四个LLM代理。代理经过特定金融专业知识的训练,使用构建的数据集。在真实在线投资论坛构建的综合金融任务上评估FinTeam,涵盖宏观经济、行业和公司分析。人工评估显示,FinTeam生成的财务报告接受率为62.00%,优于基线模型GPT-4o和Xuanyuan。FinTeam的代理在FinCUGE上平均提升7.43%,在FinEval上提升2.06%准确率。

简介

金融行业对大型语言模型(LLMs)提出了独特挑战,现有模型在复杂金融问题上表现不足。本文提出FinTeam,一个由多个协作LLM代理组成的金融智能系统,专注于宏观经济分析、行业分析和公司分析。四个专门的LLM代理分别处理金融文本、实时材料分析、财务计算和专业问答。在150个真实投资者查询的评估中,FinTeam的整体评分为4.86,显著优于其他基线模型,且人类评估显示62%的胜率。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

相关工作

LLM在金融领域的应用

大型语言模型(LLMs)在自然语言处理领域取得显著进展,尤其在金融行业,能够理解复杂文档、生成投资见解和支持数据驱动决策。专门的金融LLMs如BloombergGPT、DISC-FinLLM和XuanYuan,经过金融语料训练,适应金融语境。一些金融LLMs针对特定任务进行优化:PIXIU专注于结构化金融任务,FinVis-GPT支持多模态图表分析,InvestLM强调深度金融推理。当前模型采用单一代理架构,限制了解决复杂多步骤金融任务的能力,需探索模块化和协作的多代理系统。

多智能体协作

多智能体系统通过角色扮演、协作和任务分解提高复杂任务的解决效率。AutoGen提供了一个开放框架,支持基于LLM的代理通信;MetaGPT采用流水线模式,专门化代理执行结构化子任务。在金融领域,TradingGPT模拟不同风险偏好和策略的代理;FinMem结合个人画像、记忆和决策模块以提高回报;FinAgent将图像金融数据整合进代理互动中。

目前大多数研究集中于交易,缺乏宏观经济、行业和公司层面的分析应用。其他领域的研究表明,多代理协作能提升复杂任务的表现,如SMART通过轨迹协调提高知识一致性,MASER模拟法律互动,MDAgents和AI Hospital在临床推理和诊断中展示了适应性合作的优势。这些研究强调了结构化合作和角色专业化的有效性,激励了我们在金融分析中的多代理设计。

FinTeam

FinTeam是一个多智能体协作金融智能系统,组织虚拟金融团队处理复杂任务。定义四个角色:文档分析师、分析师、会计师和顾问,专注于特定金融技能。用户可单独部署代理处理特定任务,或在宏观经济、行业和公司分析三种场景中协作应对复杂金融挑战。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

智能体角色

文档分析器:处理金融文本,执行意图识别、实体提取和情感分析,使用领域特定的NLP数据集进行训练,包括标注的开源数据集和自动注释的财务报告文本。

分析师:利用检索增强生成(RAG)技术分析实时金融材料,采用链式检索(CoR)方法生成金融分析指令数据集,包括问题生成、参考文献检索和答案生成。

会计工具:针对复杂的财务文本和计算需求,使用工具增强代理(Accountant),结合计算工具执行准确计算,生成包含工具命令的问答对。

顾问:开发顾问代理以解答金融相关查询,构建中文数据集,通过翻译FiQA数据集、生成QA对和多轮对话增强金融知识和咨询能力。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

场景设置

宏观经济分析:通过文档分析提取关键术语,顾问解释,分析师汇总数据,最终提供经济发展和投资决策的建议。

行业分析:识别相关行业或公司,分析竞争、供应链和发展趋势,提供行业动态和战略建议。

公司分析:使用PEST和SWOT模型评估公司,提取关键数据,进行财务报表分析,计算关键财务比率,生成可行性报告,支持投资决策。

实验

数据和设置

收集150个来自NGA Grand Era 7的投资者询问,分为三个主要场景,每个场景保留50个问题。宏观经济场景关注经济指标变化、资产价格波动、市场利率变化和全球金融政策新闻。行业场景涵盖27个子行业,涉及行业新闻评估和投资趋势。公司场景聚焦于受关注的上市公司,涉及新闻、财报和股价波动。

使用GPT-4o对模型输出进行评分,评估维度包括准确性、全面性、清晰度和专业性。每个维度评分范围为1到5,并进行配对显著性测试以确认统计改进。还通过金融本科生进行人类评估,选择最佳答案,接受率反映模型输出被选为最佳答案的频率。

结果

FinTeam在回答中文金融问题时,相较于基线模型整体得分提高0.13,尤其在全面性和专业性上各提升0.23分。FinTeam的金融代理协作系统在各维度上均优于GPT-3.5-turbo和Xuanyuan-13B,显示出其有效性。统计显著性测试结果表明,全面性、专业性和整体得分的提升具有高度显著性,p值远低于接受阈值。FinTeam的人类评估接受率为62.00%,显著优于其他模型,与GPT-4o评估结果一致,验证了系统的可靠性。FinTeam能够在真实金融场景中提供专业、全面的答案,帮助用户深入理解多种材料。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

分析

评估设置

使用FinCUGE基准评估模型的NLP能力,涵盖六个任务:情感分析、事件实体、因果提取、摘要生成、关系提取和实体提取,采用少量样本评估设置,性能通过准确率、F1分数和ROUGE分数衡量。

利用FinEval评估模型在中文金融知识上的表现,包含34个子类别和1,151道多选题,测量准确率以评估模型的泛化能力。

手动创建100道金融计算题,评估模型在公式构建和结果计算上的准确性,确保数据集质量。

Financial NLP 任务结果

Document analyzer在六个金融NLP任务中表现最佳,平均得分47.20。超过强基线Qwen2.57B-Instruct的39.77,提升7.43分。证明了Document analyzer在金融文本理解和推理任务中的有效性和稳健性。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

金融知识测试结果

表7展示了四个LLM代理在FinEval基准上的评估结果,与一般和金融LLM相比,显示出其广泛的金融知识和强大的任务表现。这些代理在多样化金融场景中的适应性强。FinEval作为一个与训练数据集不同的分布,突显了训练任务和数据集的普遍性。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

数据分析结果

实验结果显示,添加计算插件后模型在金融计算任务中的表现显著提升,超出基线模型0.09。结果证明了该方法在解决金融领域计算挑战中的有效性。

FinTeam:面向综合金融场景的多智能体协同智能系统,效果优于GPT-4o-AI.x社区

限制

场景设计范围有限,未涵盖所有金融任务;系统生成的投资建议需谨慎对待,金融结果不保证;系统主要针对中国金融环境,全球市场效果未测试。

总结

本文提出了金融智能系统FinTeam,通过LLM代理的互动连接多个子任务,增强处理复杂任务的能力。训练了四个LLM代理,分别使用不同子数据集,支持宏观经济分析、行业分析和公司分析的协作工作流程。建立了多维基准,展示了FinTeam在各种金融场景中的强大支持能力。

本文转载自​​​灵度智能​​​,作者:灵度智能

收藏
回复
举报
回复
相关推荐