基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%

发布于 2025-9-17 00:13
浏览
0收藏

高波动市场吸引了全球投资者,涉及超过40万亿美元的市值,交易者可利用跨式期权应对市场波动。深度强化学习在量化交易中取得成功,但高波动市场的特性限制了价格预测的准确性,可能导致极端损失。

本文提出基于强化学习和注意力机制的自动化跨式期权交易方法,适应高波动市场的不确定性。在中国股市、布伦特原油和比特币市场的实验中,注意力机制的Transformer-DDQN模型在最大回撤方面表现最佳,平均收益率超出其他模型92.5%。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

摘要

跨式期权是一种金融交易工具,利用高波动市场中的波动溢价,不预测价格方向。深度强化学习在金融市场的交易自动化中表现强大,但现有研究多集中于价格趋势预测,导致高计算成本和不稳定性。

本文提出基于强化学习和注意力机制的自动化跨式期权交易方法,适应高波动市场的不确定性。采用Transformer-DDQN中的自注意力和通道注意力机制处理时间序列数据和多周期信息。设计了考虑超额收益的新奖励函数,关注长期利润,忽略短期损失。识别阻力位以提供价格波动不确定时的参考信息。

在中国股市、布伦特原油和比特币市场的实验中,注意力机制的Transformer-DDQN模型在最大回撤方面表现最佳,平均收益率超出其他模型92.5%。

简介

高波动市场吸引了全球投资者,涉及超过40万亿美元的市值,交易者可利用跨式期权应对市场波动。深度强化学习在量化交易中取得成功,但高波动市场的特性限制了价格预测的准确性,可能导致极端损失。跨式期权可通过交易波动性来降低因价格预测不准确而造成的潜在损失,已有研究证明其在高波动市场中的优越表现。

本文提出在算法交易中引入跨式期权,以追求长期稳定的超额收益,面临两个主要挑战:寻找最佳交易时机和理解长期趋势。采用Transformer-DDQN模型,设计新注意力网络方法计算交易决策的Q值,动态调整以适应市场条件。主要贡献包括:设计自注意力和通道注意力机制,输入阻力位信息,采用延迟奖励函数以避免局部最优,实验结果显示该模型在多个市场中优于六个基线模型。

相关工作

深度学习

AbdelKawy等人提出了一种多股票交易模型,采用同步多智能体DRL方法,动态提取金融数据特征,处理大规模历史交易数据。Tran等人使用DRL(DDQN和贝叶斯优化)优化交易策略参数,在加密货币市场中实现了正收益,优于其他优化方法。Azhikodan等人开发了一个基于深度确定性策略梯度(DDPG)模型的摆动交易机器人,结合金融新闻情感分析预测股票趋势。Kabbani等人应用双延迟深度确定性策略梯度算法,构建部分可观测马尔可夫决策过程模型,获得高夏普比率,超越传统机器学习方法。

注意力网络

注意机制提升了神经网络在多任务中的性能、效率和可解释性,能够选择性关注相关输入特征。Transformer模型利用自注意力机制,替代递归或卷积层,实现并行化和长距离依赖处理。SAGAN模型将自注意力机制融入GAN框架,增强高分辨率图像生成。SE-Nets通过自适应重校准通道特征响应,提升网络的表征能力。本模型结合自注意力和通道注意力机制,快速捕捉市场信息,优化资产权重,平衡短期调整与长期趋势,提升交易表现。

问题建模

模拟期权交易环境

历史波动率计算:使用标准差测量资产价格波动,假设市场短期内涨跌概率为50%,因此平均市场回报为零。采用15分钟蜡烛图数据捕捉日内波动。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

期权定价模型:基于Black-Scholes模型,期权价格受当前价格、到期时间和波动率影响。公式为C(S, t)和P(S, t),其中N(d)为标准正态分布的累积分布函数。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

短期交易策略:研究月度期权交易,忽略股息对期权定价的影响,使用历史波动率替代隐含波动率。

建立跨式期权头寸规则:根据行权价区间选择期权,确保投资组合的整体德尔塔接近零,优先选择流动性好的近月合约。

阻力位识别

阻力位是技术分析中的关键概念,价格到达阻力位时买卖双方博弈加剧,导致价格波动不确定性增加。通过识别历史阻力位,结合锚定效应,可以为交易模型提供参考信息。

使用算法自动识别阻力和支撑位,定义阻力区域为±0.3%范围内,价格进入该区域时发出阻力信号。市场状态的特征由滑动窗口提取,包含蜡烛图数据、浮动盈亏、历史波动率和距离下一个交易日的天数。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

状态 S_t^1 包含时间序列 Seq_t、阻力信号和持仓时间,提供交易决策信息。观察时间序列 obs_pt 关注市场趋势,使用不同周期的蜡烛图数据,形成市场状态 S_t。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

动作空间仅有持仓(1)和非持仓(0)两种状态,模型需执行完整的交易过程。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

方法

市场状态信息分为两个部分:S t 1 和 S t 2,具有时间序列特性和序列间关系。Q值估计的神经网络设计为两个模块:一个处理时间序列信息,另一个整合多期数据。

时间序列信息处理模块

Transformer模型通过自注意力机制捕捉长序列中的长程依赖,适用于时间序列数据,如蜡烛图数据。将时间序列数据Seq_t输入Transformer-Encoder模块以学习市场状态信息,提取特征。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

特征矩阵通过flatten层转化为向量,随后通过dense层压缩信息。结合ResFlag和HoldTime,形成新的特征表示H_t^3。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

最后,使用全连接层学习ResFlag和HoldTime信息,输出H_t^4。对于观察到的市场趋势时间序列obs_pt,采用相同的处理流程。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

多周期信息融合模块

短期市场趋势相似,但不同的中长期趋势背景信息可能不同,因此交易需关注长期蜡烛图信息。使用注意力机制增强模型处理不同周期数据的能力。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

多周期信息融合模块中,H_t^4作为查询向量,其他周期的蜡烛数据O_t^p作为键和值向量。计算每个周期相对于H_t^4的注意力分数并进行归一化。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

融合多周期信息后,输出集成查询向量Q(S_t, a_t)。注意力分数计算中,操作符α(·)为a = p^T W_q。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

奖励功能的设计

奖励函数设计是影响深度强化学习(DRL)模型性能的关键因素,常见的包括利润最大化、损失最小化和风险调整回报最大化。在不同市场波动下,需优化奖励函数以适应市场变化,调整风险偏好参数以平衡收益与风险。使用风险度量(如夏普比率和最大回撤)设计奖励函数有助于风险控制与收益最大化的平衡,但不适合跨式期权交易。

本文采用延迟奖励机制和止损系统来控制回撤风险,减少市场波动对模型训练的干扰。奖励机制细则:

  • 开仓(0→1)时,奖励为0。
  • 持仓(1→1)时:

若收益大于止损,奖励为0;

  • 若收益小于止损,奖励为e^(收益-1)。
  • 平仓(1→0)时:
  • 若在止损阈值平仓,奖励为a(a>0);
  • 否则,奖励为e^(收益-1),若偏离开仓点超过g%,则给予双倍奖励。
  • 不持仓(0→0)时,奖励为0。

该奖励函数设计使模型有效管理跨式期权头寸,保持稳定并响应市场波动。

实验

数据集

研究数据来源于上海证券交易所的主要指数,包括SSE 50、CSI 300和CSI 500。为验证方法的普适性,还对布伦特原油和比特币数据进行了实验。数据时间范围为2018年1月4日至2024年3月31日,包含15分钟的K线数据,内容包括开盘价、最高价、最低价、收盘价、成交量和交易价值。A股市场中,跟踪的指数期权产品包括在SSE上市的ETF期权和在中国金融期货交易所(CFFEX)交易的指数期权,统称为指数期权。

环境设置

训练集:2018年1月1日至2021年12月31日的15分钟K线数据;测试集:2022年1月1日至2024年3月31日。模型回溯20天,历史波动率基于过去5天计算。

交易成本:CFFEX指数期权每合约15元,按点收费0.15元;Binance比特币期权手续费为0.02%(不超过期权溢价的10%);伦敦ICE布伦特原油期权每合约1.5美元。初始资本100万元,ETF交易成本0.05%。期权最大持有期5天,止损阈值15%。

评估指标:年化平均对数收益(AVGR)、夏普比率(SP)、最大回撤(MDD)。

其他设置

研究比较了提议模型与两种基于规则的交易策略(市场自身回报和双移动平均策略)、两种机器学习股票价格预测模型(XGBoost和LSTM网络)以及两种深度强化学习自动交易模型(GRU-DDQN和DDPG)。

进行了消融研究,测试不同模型组件对结果的影响,选取了三种模型变体:

  • NoRes-Transformer-DDQN:屏蔽阻力水平信息。
  • DR-Transformer-DDQN:使用常见绩效指标(回报)作为奖励函数。
  • LSTM-DDQN:用LSTM网络替代Transformer编码器来估计Q值。

结果和分析

本文提出的Transformer-DDQN模型在交易价格方向的各项性能指标上优于基线方法,尤其在高波动的A股市场中。传统的规则基础交易策略在波动条件下表现不佳,双移动平均策略在趋势条件下效果较好。原油市场因需求稳定和对冲交易,价格波动小,盈利能力较差;而加密货币市场因投机者主导,价格波动剧烈,盈利能力高。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

Xgboost-Predict和LSTM-Predict因只关注预测准确性而忽视交易赔率,导致交易表现不佳。GRU-DDQN和DDPG训练失败,因市场高波动导致频繁的收益和损失切换,增加学习难度。Transformer-DDQN在不同数据集上的表现差异,SSE 50和CSI 300的盈利能力较弱,CSI 500因中小盘股波动性大而盈利能力强。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

三种模型变体的表现均不及完整的Transformer-DDQN模型。

  • NoRes-Transformer-DDQN缺乏阻力信息,导致对波动的误解。
  • DRTransformer-DDQN在横盘时利润波动大,干扰学习过程,未能有效捕捉正常市场波动。
  • LSTM-DDQN交易频率高,导致交易费用增加,尽管在极端波动条件下表现较好,但忽视历史波动信息。
  • Transformer相较于LSTM更好地捕捉长期依赖,能有效过滤市场噪音,但在市场波动降低时反应较慢,可能导致部分利润回吐。

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

基于深度强化学习的跨式期权自动交易系统,平均收益率提高92.5%-AI.x社区

总结

本文提出Transformer-DoubleDQN模型,用于学习跨式期权量化交易策略,关注交易资产的波动性。该模型旨在在正常市场波动中实现稳定收益,在极端市场运动中获得超额收益。主要风险来源是期权时间价值的衰减,而非资产价格波动,有助于更好地管理风险暴露。隐含波动率是期权定价的重要因素,通常围绕历史波动率波动,但在实际市场中难以预测。本文假设隐含波动率近似历史波动率,未来研究方向是将隐含波动率信息整合进深度强化学习模型。

本文转载自​​灵度智能​​,作者:灵度智能

收藏
回复
举报
回复
相关推荐