
FlowHFT: 基于模仿学习的高频交易框架,有效实现复杂极端市场情境中的策略优化
“FlowHFT: Flow Policy Induced Optimal High-Frequency Trading under Diverse Market Conditions”
市场做市(MM)是一种通过同时下买卖单来从买卖差价中获利的交易策略,提供流动性并提高市场效率。高频交易(HFT)是市场做市的一种形式,以毫秒或微秒的速度执行订单,利用小幅价格变动获利。
传统HFT策略(如AS模型和GLFT模型)依赖历史市场数据进行参数校准,但在市场条件变化时效果受限,容易导致次优表现。
本文提出FlowHFT框架,基于流匹配策略,能够从多个专家模型中学习,适应不同市场状态。FlowHFT包含网格搜索微调机制,能在复杂或极端市场情境中优化策略。
测试结果显示,FlowHFT能够在随机环境中学习有效的交易策略,整合了不同市场情境下专家策略的知识,快速适应市场变化。FlowHFT在开发自适应高效高频交易策略方面具有前景。
摘要
高频交易(HFT)策略依赖历史数据模型,假设未来市场状态与过去相似,限制了模型的适用性。传统模型在特定市场条件下表现最佳,但现实市场动态多变且常常波动。本文提出FlowHFT框架,基于流匹配策略,能够从多个专家模型中学习,适应不同市场状态。FlowHFT包含网格搜索微调机制,能在复杂或极端市场情境中优化策略。测试结果显示,FlowHFT在随机市场环境中有效学习交易策略,且在各市场条件下表现优于最佳专家。
简介
市场做市(MM)是一种通过同时下买卖单来从买卖差价中获利的交易策略,提供流动性并提高市场效率。高频交易(HFT)是市场做市的一种形式,以毫秒或微秒的速度执行订单,利用小幅价格变动获利。
传统HFT策略(如AS模型和GLFT模型)依赖历史市场数据进行参数校准,但在市场条件变化时效果受限,容易导致次优表现。强化学习(RL)将HFT问题视为代理与市场环境的互动,旨在学习最大化累积奖励的策略,但往往只优化单步动作,可能导致错误累积。HFT需要长远视角,因为盈利依赖于从多个小收益中积累。每个动作都会影响后续的可行性和盈利能力。
本文提出FlowHFT框架,基于流匹配策略,结合模仿学习和网格搜索机制。第一部分通过模仿学习开发预训练模型,观察市场状态并生成交易动作,模拟多种市场场景,选出最佳表现模型作为“专家”。FlowHFT通过模仿专家的动作整合多种策略,即使在次优情况下也能学习并改进。第二部分使用网格搜索机制微调预训练模型提出的初始动作,生成最终交易动作。FlowHFT是首次将流匹配策略应用于金融随机控制问题,展示出在市场条件变化时的适应性。
框架支持毫秒级快速推理,生成交易动作,并在价格剧烈波动时表现出显著的鲁棒性。通过生成动作序列而非单步决策,FlowHFT考虑了短期轨迹,减少了复合误差,提高了战略稳定性和表现。
预备知识
高频交易(HFT)利用自动化算法在毫秒或微秒级别执行订单,目标是通过买卖限价单从买卖差价中获利。HFT市场做市任务可建模为离散时间步骤的随机控制过程,时间集为T = {0, 1, ..., T}。观察状态空间O包含时间t的市场信息L_t(如限价订单簿中的股票价格和买卖差价)和代理信息Z_t(如余额、当前库存水平和时间t),即O ⊆ L × Z × T。状态S_t通常满足马尔可夫性质。
市场做市商选择行动 A_t 来设置买卖报价,通常通过相对于参考价格 p_{ref}^t 的价差 (delta_b^t, delta_a^t) 参数化。系统演变由随机转移概率 P(O_{t+1} | O_t, A_t) 决定,反映市场状态 L_{t+1} 和代理库存 I_{t+1} 的变化。代理寻求最优策略 ( pi: O to A ),以最大化目标函数 J(pi) ,通常是期望最终价值与库存风险惩罚的组合。优化问题为 max_{pi} J(pi),需要在复杂的随机环境中动态平衡盈利能力与库存和逆向选择风险。
FlowHFT
FlowHFT骨干模型:流匹配策略
FlowHFT的核心是条件流匹配策略πθ(A t+1 | O t),通过模仿学习从专家演示中训练,映射市场观察O t到交易动作A t+1。目标是训练神经网络vθ(a, t | O t)来参数化条件向量场,定义从简单先验分布p prior(a 0)到专家交易动作序列p expert(a E | O t)的概率流。
训练过程通过最小化网络预测向量场vθ与目标向量场u t之间的差异,使用Flow Matching损失函数C_{FA}(θ)。
推理时,从先验分布中采样初始动作序列a 0,迭代求解常微分方程以生成高频交易动作序列。
通过快捷策略加速推理
为满足高频交易的低延迟要求,引入快捷策略sϕ(a, t, ∆t | O t),专门训练以在更少的离散化步骤中生成高质量动作序列。
策略s ϕ的训练旨在实现更大、更有信息量的离散步伐。结合了修正流和一致性模型的两种策略。
在训练数据的一部分中,策略通过直接目标向量x 1 − x 0进行引导。
x 0为噪声样本,x 1为专家样本,x t为插值。通过设置d = 0,模型s ϕ被训练以对齐直接路径速度,促进更直、更高效的生成路径。
使用自一致性目标训练策略,模型s ϕ通过预测较大步长的速度来匹配两个小步长的结果,目标为s target ← stopgrad(s t + s t+d )/2,提升大步长的准确性。
训练后的策略s ϕ可通过算法4以较少步骤(如1到5)生成高质量的动作序列,显著降低推理延迟。
微调预训练模型
框架的第一部分是流匹配策略,模仿专家策略;第二部分对预训练策略进行微调,以超越专家表现。通过线性变换快速校准预训练模型的动作,结合当前市场信息,提升实时适应性,效率高于传统高频交易模型。
预训练模型输出的动作序列通过线性变换调整,形式为 a' = a cdot a + b,其中 a 为标量缩放因子,b 为向量偏移量,二者通过验证集校准。调整后的动作序列 a' 用于策略执行,通常从中执行第一个动作 a'_{t+1}。
模仿学习数据生成
市场模拟和专家模型
FlowHFT 是一个模仿学习框架,需准备高质量学习材料。生成多种市场场景,并评估候选专家(包括传统算法和强化学习代理),选择表现最佳者作为该场景的“专家”。使用专家策略生成的动作创建状态-动作对,用于训练 FlowHFT。
中间价格 S_t 被建模为跳跃-扩散过程,描述连续价格变动和突发跳跃。随机微分方程为:
- mu:漂移系数,表示资产的预期收益。
- sigma:波动率,量化价格波动。
- dB_H(t):分数布朗运动增量,捕捉连续价格变动。
- J:跳跃大小,服从正态分布 N(mu_J, sigma_J^2)。
- dN_t:强度为 lambda_J 的泊松过程,建模跳跃发生。
订单到达使用互激励的霍克斯过程建模,捕捉自激励和交叉激励效应。
- 自激励:先前的买(或卖)订单增加后续相同类型订单的到达。
- 交叉激励:买订单影响卖订单的到达,反之亦然。
买卖订单强度模型:
- 买单强度 λ_a(t) = µ_a + P α - β(t - t_i) - β(t - t_j)
- 卖单强度 λ_b(t) = µ_b + P α + β(t - t_j)
µ_a、µ_b 为基线强度;α_bb、α_aa 为自激励效应;α_ba、α_ab 为交叉激励效应;β 为衰减率;N_a、N_b 为过去订单时间戳集合。
FlowHFT专家演示生成使用多种专家模型:
- Avellaneda-Stoikov (AS) 模型:考虑库存风险和市场波动的最优报价框架。
- Guéant-Lehalle-Fernandez-Tapia (GLFT) 模型:扩展最优控制方法,包含订单流动态。
- 修改版 GLFT 模型:加入价格漂移成分,适应趋势市场。
- 基于强化学习的无模型代理:使用近端策略优化(PPO)训练,最大化奖励函数。
市场情景生成
创建高、中、低流动性市场场景,测试模型在压力下的表现。模拟市场环境的参数:
- Hurst成分水平:Hurst指数H反映长期记忆特性,H>0.5为趋势跟随,H<0.5为均值回归,H=0.5为无记忆性。
- 波动性水平:通过波动参数σ控制,高σ导致更大价格波动。
- 流动性水平:通过基线强度µb、µa和Hawkes过程的激励参数调整,高流动性对应高到达率。
- 突发市场变化:通过引入跳跃事件,增加跳跃强度λJ和跳跃大小J。
其中:
- 时间步长(dt):0.01, 0.02
- 漂移(µ):0.01, 0.05, 0.2
- 波动率(σ):0.1, 0.2, 0.4
- Hurst指数(H):0.3, 0.5, 0.7
- 跳跃强度(λ j):0.05, 0.1, 0.2
- 买卖基线强度(µ a, µ b):10, 20, 40
- 策略:主导随机策略
- 参数组合总数:486
状态-动作对的生成
为每个市场生成状态-动作对,模拟100个回合。每个回合包含1/dt时间步,收集专家策略的状态-动作对。从候选策略(AS, GLFT, GLFT-Drift, PPO)中获取主导随机策略的状态-动作对。总共收集了162万状态-动作对,作为扩散策略的训练数据集。数据集覆盖广泛的市场条件,确保稳健的策略学习。
实验
实验在不同于训练阶段的市场条件下进行,以评估FlowHFT的适应性和性能。研究问题包括:
- FlowHFT能否将专家演示学习的策略有效推广到新市场条件?
- 集成微调机制是否显著提升预训练模型提出的行动表现?
- FlowHFT框架在挑战性外样本情况下能否实现更高的盈利能力?
测试市场环境设定
设置Hurst指数(H)为0.2、0.5、0.8,分别模拟强均值回归、随机游走和强趋势市场。漂移参数(µ)为0或0.2,分别表示无趋势市场和一般看涨市场。形成6种市场场景(2×3)基于趋势和记忆特性。进一步细分为4种微观市场结构:高波动/高到达率(HH)、高波动/低到达率(HL)、低波动/高到达率(LH)、低波动/低到达率(LL),共24种场景(6×4)。设计用于评估高频交易策略在不同市场条件下的适应性和表现。通过验证集调整参数,随后在交易阶段应用于流匹配模型的行动调节。
评估指标
- 利润与损失(PnL):衡量交易策略产生的总利润。
- 夏普比率(SR):评估风险调整后的收益。
- 最大回撤(MDD):衡量风险,计算PnL的最大峰值到谷值的下降幅度。
结果分析
GLFT模型通常优于AS模型,预训练的流匹配策略模型与GLFT教师的表现相当,表明其成功学习了有效策略。微调后的流匹配策略模型在各测试环境中显著超越传统基线模型(AS和GLFT)及初始预训练模型,验证了框架的第二核心目标。微调过程使模型能够根据验证集校准“感知”市场条件,调整行为以适应特定市场环境。表4-7扩展了波动率和到达率选项,以研究更广泛的未见场景。
总结
本文提出了新型模仿学习框架FlowHFT,首次将流匹配策略应用于金融随机控制任务。FlowHFT能够在随机环境中学习有效的交易策略。该框架整合了不同市场情境下专家策略的知识,快速适应市场变化。引入的网格搜索机制优化了行动,尤其在专家策略不佳时表现突出。
本文转载自灵度智能,作者:灵度智能
