STOCKBENCH: 大模型现实环境股票交易盈利及风险评估

发布于 2025-10-13 07:10
浏览
0收藏

大型语言模型(LLMs)在推理、工具使用和决策方面表现出色,但金融领域的研究仍然不足。现有金融基准主要测试静态知识,未能反映交易的动态和迭代特性。

本文提出STOCKBENCH基准,旨在评估LLM在真实股票交易环境中的盈利能力和风险管理能力。评估结果显示,大多数LLM智能体未能超越简单的买入持有基准,表明静态问答能力与动态市场交易策略之间存在差距。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

摘要

大型语言模型(LLMs)在推理、工具使用和决策方面表现出色,但金融领域的研究仍然不足。现有金融基准主要测试静态知识,未能反映交易的动态和迭代特性。

STOCKBENCH用于评估LLM在多月股票交易环境中的表现。智能体每天接收市场信号(价格、基本面、新闻),并需做出买、卖或持有的决策。评估指标包括累计回报、最大回撤和Sortino比率。

评估结果显示,大多数LLM智能体未能超越简单的买入持有策略,但部分模型在回报和风险管理上表现出潜力。研究表明,静态金融知识的优秀表现不一定能转化为成功的交易策略。STOCKBENCH作为开源资源发布,以支持可重复性和未来研究。

简介

大型语言模型(LLMs)推动了自主智能体的发展,展现出在推理、工具使用和长期决策中的强大能力。现有金融智能体基准主要集中在静态问答任务,未能反映实际交易场景。

本文提出STOCKBENCH基准,旨在评估LLM在真实股票交易环境中的盈利能力和风险管理能力。STOCKBENCH特点:真实市场互动、连续决策、数据无污染。评估结果显示,大多数LLM智能体未能超越简单的买入持有基准,表明静态问答能力与动态市场交易策略之间存在差距。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

STOCKBENCH

STOCKBENCH由两个主要构建块组成:

  • 回测环境,包含历史数据用于股票交易决策,模拟真实股票交易。
  • 股票交易智能体工作流,评估LLM骨干作为智能体在回测环境中的表现。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

环境

交易环境设计:模拟真实股票交易,交易智能体仅接触决策时可用数据。

投资目标:选择20只道琼斯工业平均指数中权重最高的股票,确保评估结果稳定,避免短期情绪驱动的波动。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

历史市场数据:收集股票的开盘价及基本面指标(市值、P/E比率、股息收益率等),防止未来信息泄露。

新闻语料库:每日收集过去48小时内的相关股票新闻,保留五篇最相关的文章,模拟零售投资者的反应。

数据收集时间窗口:评估窗口为2025年3月3日至6月30日,确保不与训练数据重叠,涵盖波动和趋势反转。

股票交易智能体工作流程

本文提供一个股票交易智能体工作流程,使大型语言模型(LLM)能与回测环境互动。设计目标:1) 简化工作流程,避免引入偏见;2) 真实反映零售投资者的决策过程。

工作流程分为四个阶段:

  • 投资组合概览:智能体扫描市场所有股票,获取相关数据(新闻、持仓、历史操作、开盘价)。
  • 深入股票分析:选择特定股票进行详细分析,获取基本面数据(市值、市盈率、股息收益率)。
  • 决策生成:基于分析结果,生成对每只股票的决策(增加、减少或持有)。
  • 执行与验证:将决策转化为股数,检查流动性,确保决策可执行,锁定新组合权重,进入下一天。

STOCKBENCH的特点

真实市场互动:通过精选投资目标、可靠的价格和基本数据、及时的新闻语料,模拟真实交易环境,避免不切实际的输入。

持续决策:智能体进行投资组合概览、深入股票分析,并基于分析生成每日交易决策,反映零售投资者的决策过程。

数据无污染:确保智能体在训练期间未接触测试数据,通过使用近期市场数据实现时间上的分离,避免与现代大语言模型的训练数据重叠。

主要实验

实验设置

实验设置:评估LLM智能体在STOCK BENCH交易工作流中的表现,包括交易环境、基准模型、被动基线和评估指标。

交易环境:选择20只道琼斯工业平均指数(DJIA)股票,评估期为2025年3月3日至6月30日,共82个交易日。模型以$100,000现金和零持仓开始,每日开盘交易,输入包括过去7天的历史操作、48小时内的新闻和基本面数据。

评估模型:基准包括多种LLM模型(如Qwen3、DeepSeek、Kimi-K2等)和闭源API(如OpenAI的O3、Anthropic的Claude-4-Sonnet),所有模型使用32,768个token上下文窗口,运行三次以确保结果可靠。

被动基线:实施等权重买入持有策略,初始资本均匀分配于所有股票,作为比较的基准。

评估指标:

  • 最终回报:投资组合价值的百分比变化,反映整体盈利能力。
  • 最大回撤:投资组合价值从峰值到谷底的最大下降,衡量下行风险。
  • Sortino比率:风险调整回报指标,仅惩罚下行波动,适用于非对称收益。

综合排名:通过计算每个指标的z-score并平均,得出单一性能评分,平衡盈利能力与风险管理。

结果

LLM智能体在真实市场中能够盈利,大多数模型超越了被动买入持有基准(0.4%回报,-15.2%最大回撤,Sortino比率0.0155),部分智能体回报超过2%,风险更低。

LLM智能体有效管理下行风险,所有模型的最大回撤均低于基准,最佳智能体的回撤在-11%至-14%之间。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

理性模型不一定表现更佳,尽管Qwen3-235B-Think等模型在复杂推理任务中表现强劲,但在交易任务中,指令调优模型如Qwen3-235B-Ins表现更好,最大回撤更低(-11.2%对比-14.9%),显示出推理能力与动态决策之间的差距。

分析

投资目标规模的影响

投资目标规模对智能体性能的影响显著,随着目标规模(5、10、20、30个DJIA成分股)的扩大,投资组合的权重差异增加,表现出更高的波动性。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

可扩展性挑战:所有模型在投资组合规模增加时表现下降,平均收益降低,收益波动性上升,表明多资产决策的复杂性。

模型规模的稳健性:较大规模模型Kimi-K2在中等投资组合规模(10-20只股票)下保持相对稳定的风险收益特征,正收益;而较小模型GPT-OSS-120B则表现出严重的性能下降和过度波动,说明模型容量的增加有助于提升多资产决策的泛化能力和稳定性。

错误对交易流程的影响

交易过程中常见的错误有:算术错误(计算买卖股数时出错)和格式错误(未遵循JSON格式导致解析失败)。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

思维模型的算术错误发生率低于指令模型,符合其在数学推理任务中的优异表现。

思维模型的格式错误发生率高于指令模型,可能因其输出过于复杂,导致偏离预期格式。

数据来源消融研究

LLM智能体依赖新闻文章和基本财务数据两种信息源,前者反映市场情绪,后者提供关键财务指标。进行消融研究,逐步去除输入,发现累计回报随着信息源的减少而下降。Kimi-K2模型在去除新闻后仍较为稳健,但缺失两者时表现显著下降。GPT-OSS-120B对新闻和基本面信号依赖更强,表现下降更明显。研究表明,LLM交易智能体能够有效整合文本和数值信息,提升交易策略的有效性。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

评价窗口的影响

研究不同市场条件下模型表现,使用2025年1月至4月的下行期和5月至8月的上行期进行实验。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被动基准。

STOCKBENCH: 大模型现实环境股票交易盈利及风险评估-AI.x社区

模型排名在下行期和上行期显著变化,GPT-OSS120B在下行期排名靠后,上行期排名靠前,表明其适合牛市。Kimi-K2在两个时期保持相对稳定的排名,显示出对市场波动的鲁棒性。在下行期,所有LLM智能体未能超越被动基准,而在上行期,大多数LLM智能体表现优于基准,表明LLM智能体在熊市中表现不佳,需改进。

总结

STOCKBENCH是一个新颖的基准,用于评估LLM智能体在真实股票交易场景中的表现。该基准模拟动态市场环境,要求在多个月的时间内进行持续决策,评估盈利能力和风险管理能力。实验表明,当前LLM智能体能够盈利,但难以持续超越简单基线,显示出该领域的挑战。STOCKBENCH将为研究社区提供重要资源,推动智能金融智能体的发展。未来工作将增强基准,增加市场场景,并探索新智能体架构以提升交易表现。

本文转载自​灵度智能​

已于2025-10-13 07:10:39修改
收藏
回复
举报
回复
相关推荐