
RD-Agent(Q):数据驱动的多智能体自动化量化策略框架
金融市场是高维非线性动态系统,具有重尾、时变波动和复杂的横截面依赖性,导致预测难度增加。金融市场的资产回报预测面临高维度、非平稳性和持续波动性等挑战。现有的定量研究流程自动化程度低、可解释性弱、各关键组件协调性差。
本文提出RD-Agent(Q),一个数据驱动的多代理框架,旨在自动化量化策略的研发。RD-Agent(Q)实现端到端自动化,增强可解释性,降低幻觉风险。RD-Agent(Q)在研究阶段通过结构化知识森林模拟分析师工作流程,生成高质量假设。在开发阶段,Co-STEER作为知识进化代理,提升数据中心任务的代码生成准确性和效率。
RD-Agent(Q)在真实股市实验中,成本低于$10时,年化收益率(ARR)约为基准因子库的2倍,且使用因子减少70%以上,超越了小资源预算下的深度时间序列模型。
摘要
金融市场的资产回报预测面临高维度、非平稳性和持续波动性等挑战。现有的定量研究流程自动化程度低、可解释性弱、各关键组件协调性差。本文提出RD-Agent(Q),一个数据驱动的多代理框架,旨在自动化量化策略的研发。RD-Agent(Q)分为研究阶段和开发阶段,研究阶段设定目标、形成假设并映射任务,开发阶段通过Co-STEER生成代码并进行市场回测。两个阶段通过反馈机制连接,使用多臂老虎机调度器进行自适应方向选择。RD-Agent(Q)在实际市场中实现了比经典因子库高出2倍的年化回报,且使用的因子减少70%。其联合因子-模型优化在预测准确性和策略稳健性之间取得良好平衡。
简介
金融市场是高维非线性动态系统,具有重尾、时变波动和复杂的横截面依赖性,导致预测难度增加。资产管理行业正从经验驱动转向数据驱动,量化投资因高效决策、可重复执行和追求超额收益而日益普及。
现代量化研究流程通过微软的Qlib项目简化数据处理和回测,重点转向因子挖掘和模型创新。因子挖掘从传统模型发展到进化符号回归和强化学习优化,模型创新则从经典自回归演变为机器学习和深度学习架构。股票特定模型利用图神经网络捕捉股票间互动,LLM和多智能体系统从新闻和社交网络提取信号。当前量化研究面临三大限制:自动化程度低、可解释性差、优化过程碎片化。
本文提出RD-Agent(Q),一个数据驱动的多智能体框架,自动化全栈量化策略开发,支持因子与模型的协同优化。RD-Agent(Q)实现端到端自动化,增强可解释性,降低幻觉风险。RD-Agent(Q)在研究阶段通过结构化知识森林模拟分析师工作流程,生成高质量假设。在开发阶段,Co-STEER作为知识进化代理,提升数据中心任务的代码生成准确性和效率。
RD-Agent(Q)在真实股市实验中,成本低于$10时,年化收益率(ARR)约为基准因子库的2倍,且使用因子减少70%以上,超越了小资源预算下的深度时间序列模型。交替因子-模型优化实现了预测准确性与策略稳健性之间的良好平衡。
相关工作
传统定量研究方法依赖于人造因子(如价值和动量),缺乏适应性。符号回归和遗传编程自动化因子挖掘,增强信号多样性和有效性。强化学习将因子配置视为序列决策,优化夏普比率,但在市场变动下缺乏稳健性和可解释性。早期模型(如ARIMA和指数平滑)对高维噪声数据表现不佳,经典机器学习方法需手动特征工程。深度学习(如LSTM和Transformer)捕捉长期和横截面依赖,专用时间序列神经网络如PatchTST和iTransformer进一步提升预测能力。现有因子和模型流程孤立且依赖专家,限制了在波动市场中的可扩展性。
大语言模型(LLMs)在金融研究中提供自动化机会,能提取预测信号和生成因子解释。LLM基础的多代理系统(如FinAgent和TradingAgents)用于复杂决策,但多集中于狭窄子任务,易产生幻觉且难以重现。现有系统缺乏联合因子-模型优化和工作流程整合机制,限制了在实际定量系统中的有效性。
RD-Agent(Q)
本文提出RD-Agent(Q),一个数据驱动的多智能体框架,用于迭代因子模型研发,具备自动化、可解释性和高效性。量化过程分为五个紧密耦合的单元:规范、合成、实施、验证和分析,形成闭环循环,模拟人类研究者的试错过程。RD-Agent(Q)持续自主运行,支持因子和模型组件的动态共同优化。每轮的假设、实施和结果被持久存储,促进知识积累和决策的逐步优化。
规格单元
规格单元是RD-Agent的顶层组件,动态配置任务上下文和约束,确保设计、实施和评估的一致性。其运作沿两个轴线:理论(编码假设、数据模式和输出协议)和经验(建立可验证的执行环境和标准化接口)。
规格单元形式化为元组S = (B, D, F, M),其中B为背景假设,D为市场数据接口,F为预期输出格式,M为外部执行环境。任何候选因子或模型f θ需满足条件:∀ , x ∈ D, ; f θ (x) ∈ F且f θ可在M中执行,确保与标准输入/输出结构兼容,支持模块间的协作一致性和可重复性。
合成单元
合成单元通过历史实验生成新假设,模拟人类推理。当前优化动作定义为t ∈ {factor, model},并构建实验轨迹。第t个实验表示为e_t = {h_t, f_t},其中h_t为假设,f_t为反馈。维护当前最佳解决方案集SOTA,定义历史假设和反馈集H_t和F_t。提取与动作相关的子集。
生成映射函数G结合理论先验和经验反馈生成新假设h(t+1),确保假设可执行且科学合理。在因子生成任务中,h(t+1)考虑最新反馈、市场条件和经济理论,确保因子的有效性和可观察性。生成机制根据性能反馈调整策略,成功时增加复杂性,失败时进行结构调整或引入新变量,形成“想法森林”。
假设h(t)被具体化为任务t(t),下游模块用于代码实现。因子假设h_factor(t)可分解为多个子任务t_factor(i),而模型假设h_model(t)映射为单一任务t_model,执行整个建模和推理流程。
实施单元
实施单元负责将合成单元生成的可执行任务转化为功能代码,核心在于RD-Agent(Q)的复杂开发。设计了专门的代理Co-STEER,支持定量研究中的因子和模型开发,确保实现的正确性、效率和适应性。
因子开发中任务存在结构依赖,采用引导性思维链机制,构建有向无环图(DAG)表示任务依赖关系。通过拓扑排序指导任务执行,调度过程具有适应性,反馈机制用于优化计划,优先处理简单任务以提高成功率。
实施代理I根据任务描述和知识库生成代码c j,过程包括任务解析、代码合成、执行和验证。目标是最大化累积实施质量π I,通过评估代码的正确性和性能RI(c j)。知识库K记录成功和失败的任务-代码-反馈三元组,更新方式为K(t+1) = K(t) ∪ {(t j, c j, f j)}。通过知识转移机制,代理可以根据当前反馈从知识库中检索相似任务的解决方案,提高新任务代码生成的效率和成功率。
反馈驱动的优化循环持续提升代码质量和效率,促进定量研究组件的快速和稳健开发。
验证单元
验证单元评估实施单元生成的因子或模型的实际有效性。对新因子进行去重处理,通过与现有SOTA因子库的相关性计算。计算因子矩阵F的IC值,筛选出IC值最大≥0.99的新因子,认为其冗余。剩余因子与当前SOTA模型结合,通过Qlib回测平台评估性能。模型评估过程对称,候选模型与当前SOTA因子集配对进行回测。验证单元提供集成化、自动化的标准化评估管道,支持生产级市场模拟环境。
分析单元
分析单元在RD-Agent(Q)框架中担任研究评估和策略分析的角色,评估假设、任务和实验结果。若实验结果优于当前SOTA,则将结果添加至相应的SOTA集合,并诊断失败策略,生成改进建议。
分析单元与合成单元互动,形成闭环系统,平衡短期响应与长期探索。每轮分析后,决定优先进行因素优化或模型优化,采用上下文两臂赌博问题,通过线性汤普森采样解决。
系统观察8维性能状态向量,评估每个动作的预期收益,选择收益最高的动作执行,并更新后验分布。通过上下文汤普森采样机制,RD-Agent(Q)自适应平衡探索与利用,提升迭代性能。
实验
实验设置
数据集:使用CSI 300数据集,涵盖300只大型A股,时间分为训练(2008年1月1日-2014年12月31日)、验证(2015年1月1日-2016年12月31日)和测试(2017年1月1日-2020年8月1日)。
RD-Agent(Q)的三种配置:
- RD-Factor:固定预测模型为LightGBM,优化因子集(起始于Alpha 20)。
- RD-Model:固定因子集为Alpha 20,寻找更好的模型。
- RD-Agent(Q):同时优化因子和模型。
基线比较:因子层面比较Alpha 101、Alpha 158、Alpha 360和AutoAlpha;模型层面包括多种机器学习和深度学习模型(如Linear、MLP、XGBoost、GRU等)。
评估指标:因子预测指标(信息系数IC、IC信息比率ICIR等)和策略表现指标(年化收益ARR、信息比率IR、最大回撤MDD等),采用基于预测收益排名的日常多空交易策略。
实验分析
RD-Agent在CSI 300数据集上表现优于所有基线模型,尤其在预测和战略指标上。
RD-Factor通过动态优化因子空间,超越静态因子库,IC高达0.0497,ARR提升至14.61%。RD-Model在固定因子下表现最佳,Rank IC为0.0546,MDD为-6.94%,显示出机器学习模型在捕捉金融噪声和非线性模式上的局限。RD-Agent(Q)通过联合优化因子和模型,达到最高性能,IC为0.0532,ARR为14.21%,IR为1.74,显著超越强基线方法。
RD-Factor的因子假设演变分析显示探索与利用的平衡,采用文本嵌入、相似性矩阵和层次聚类方法。
研究发现多样化路径产生协同效应,最终选入8个试验,涵盖5个聚类,支持高效的深度搜索和概念覆盖。
Co-STEER在RD-Agent(Q)框架下的pass@k准确率评估显示,其在模型任务和全栈任务中快速收敛,o3-mini在复杂任务中表现出更高的恢复率,体现了其强大的链式推理能力。
RD-Factor在因子生成方面表现优异,使用22%因子时,IC水平与Alpha 158和Alpha 360相当,且在2019-2020年间保持稳定,显示出迭代因子优化的有效性。
RD-Model在ARR、MDD和资源使用方面优于基线模型,RD-Model GPT-4o和o3-mini在风险收益比上表现突出。
RD-Agent(Q)对LLM后端的敏感性评估显示,o1在多个指标上表现最佳,GPT-4.1紧随其后,整体框架在不同LLM后端上表现稳健。
RD-Agent(Q)的成本低于$10,验证了其成本效益和可扩展性。
总结
RD-Agent(Q)是一个基于LLM的量化金融协作因子模型开发框架,支持模块化组件和基于带宽的调度器,能在固定计算预算下高效迭代。实证结果显示,RD-Agent在信号质量和策略表现上优于基线,具备良好的成本效率和可推广性。模块化设计使其适应真实世界环境,但目前依赖LLM的内部金融知识。
未来工作可增强数据多样性、引入领域先验,并实现在线适应市场变化。用户需自行准备金融数据,独立评估和测试生成因子及模型的风险,使用时需谨慎。
RD-Agent(Q)不提供金融意见,不能替代合格金融专业人士的角色,输出不代表微软的观点。
本文转载自灵度智能,作者:灵度智能
