
突破性数据同化技术:RL-DAUNCE如何通过强化学习实现物理约束下的高效状态估计
引言:数据同化的新范式
在现代科学计算和预测系统中,数据同化作为一种关键技术,其重要性不言而喻。它通过系统性地结合观测数据与模型预测,为物理系统状态提供更精确的估计。从最初为数值天气预报开发的技术,如今已扩展到参数估计、动态插值、控制辅助和模型识别等广泛应用领域。近年来,数据同化更成为数字孪生和多模型预报系统的核心组件。
传统数据同化方法如集合卡尔曼滤波器(EnKF)在处理高度非线性和非高斯系统时面临诸多挑战,包括计算效率低下和物理约束难以保持等问题。这些挑战促使研究人员探索将机器学习技术与数据同化相结合的新方法。虽然监督学习已成为标准方法,但强化学习(RL)凭借其顺序决策框架提供了独特优势,能够自然地适应数据同化的迭代特性,通过动态平衡模型预测与观测数据来优化结果。
本文介绍的RL-DAUNCE(基于强化学习的带不确定性感知约束集成数据同化)方法,代表了数据同化领域的一项重大创新。这种方法不仅继承了机器学习的计算效率,还特别设计了智能体结构以模拟传统数据同化方法中的集成成员,同时通过强化学习的自适应能力增强了系统性能。
RL-DAUNCE方法的核心创新
RL-DAUNCE方法在三个关键方面实现了数据同化的突破性进展:
1. 计算效率与传统兼容性的平衡
RL-DAUNCE自然继承了机器学习的计算效率,同时独特地构建其智能体以模拟传统数据同化方法中的集成成员。这种设计使其能够保持与标准工作流程的兼容性,同时利用强化学习的自适应能力。通过将每个集成成员建模为独立的强化学习智能体,RL-DAUNCE创建了一个能够捕捉系统动态行为不确定性的集成。
与传统的EnKF相比,RL-DAUNCE在计算效率方面表现出显著优势。实验表明,约束型EnKF每次同化步骤需要约22.96秒,主要是由于解决带非线性约束的优化问题所带来的计算开销。即使是无约束的EnKF仍需5.61秒每步,且常常由于缺乏物理约束而产生不符合物理规律的后验估计。相比之下,RL-DAUNCE每步仅需1.1秒即可完成,同时保持与约束型EnKF相当的物理一致性。这意味着RL-DAUNCE比约束型EnKF快20倍,比无约束EnKF快5倍,为实时或大规模数据同化任务提供了极具吸引力的解决方案。
2. 不确定性量化的增强
与现有专注于端到端状态估计的强化学习辅助数据同化方法不同,RL-DAUNCE通过推进多个集成成员来强调不确定性量化,超越了简单的平均状态优化。它通过让每个智能体独立演化,使集成统计能够捕获超出平均状态估计的完整分布信息,从而提供更全面的不确定性感知状态估计。
在实际应用中,这种能力尤为重要,因为它允许系统不仅提供点估计,还能评估估计的可靠性,这在处理高度不确定的系统时至关重要。例如,在处理马登-朱利安振荡(MJO)这样的间歇性大气现象时,RL-DAUNCE能够准确捕捉极端事件并提供可靠的不确定性量化。
3. 物理约束的有效执行
RL-DAUNCE的集成作为智能体设计天然促进了在同化过程中执行物理约束,这对于改进状态估计和后续预测至关重要。通过将原始-对偶优化策略纳入强化学习框架,RL-DAUNCE能够动态地惩罚奖励函数,以确保在整个学习过程中满足约束条件。此外,通过限制RL动作空间来尊重状态变量边界,进一步确保了物理一致性。
这种约束执行机制对于处理具有强物理约束的系统尤为重要。例如,在MJO模型中,对流活动的正值约束和能量守恒是保持系统稳定性和物理可解释性的关键。RL-DAUNCE通过硬约束确保对流活动保持正值,同时通过软约束维持系统能量在可接受范围内波动。
理论基础:强化学习与集合卡尔曼滤波器的结合
集合卡尔曼滤波器(EnKF)概述
集合卡尔曼滤波器通过有限的状态实现集合来将标准卡尔曼滤波器推广到非线性系统。与经典卡尔曼滤波器不同,EnKF不是传播分析均值和协方差估计,而是通过两步预测-分析程序传播N个状态向量的集合。
在预测步骤中,EnKF利用预测模型更新背景集合,然后在分析步骤中,给定观测值,每个集合成员都会根据卡尔曼增益进行更新。这种方法在气象学、土壤和土地研究、地下水建模以及更广泛的地球物理应用中取得了成功。
然而,EnKF面临几个计算挑战。这些问题的高维度通常会减慢计算速度,特别是因为这些方法需要多次运行预测模型来生成集合。在实践中,可用的集合数量有限,因此通常需要额外的经验调整,如噪声膨胀和局部化,以确保这些数据同化方法的数值稳定性。
约束型EnKF
标准EnKF通过基于观测数据更新系统状态集合,为状态估计提供了有效框架。然而,它并不能内在地执行物理约束,如正值保持或能量守恒,这些在科学和工程应用中往往至关重要。为解决这一限制,EnKF更新步骤可以重新表述为约束最小化问题。
通过将同化过程置于优化框架中,我们可以明确施加约束并利用数值优化技术获得物理上一致的更新,同时保持EnKF的统计特性。约束型EnKF为每个集合成员解决优化问题,以执行物理约束,同时最小化成本函数。
强化学习(RL)与EnKF的概念并行
强化学习是一种机器学习范式,其中智能体通过与环境交互并接收奖励形式的反馈来学习决策。RL旨在确定最大化长期累积奖励的最优策略。与提供标记数据的监督学习不同,RL通过试错操作,平衡探索(尝试新动作)和利用(选择产生高奖励的动作)。
尽管近端策略优化(PPO)和EnKF来自不同领域,但它们共享几个基本原则。例如,两种方法都依赖于采样技术:PPO从学习的策略分布中采样动作,而EnKF从集合中采样状态实现。此外,两者都包含不确定性量化:PPO通过随机策略和探索机制,EnKF通过集成统计。尽管它们的目标不同,PPO旨在最大化长期奖励,而EnKF旨在最小化估计误差;它们的更新机制(策略梯度与卡尔曼增益)在迭代细化智能体行为或状态估计方面起着类似的作用。
RL-DAUNCE框架
RL-DAUNCE框架建立了一种创新的方法,将强化学习与数据同化相结合,同时保持物理约束。该框架的核心是将每个集成成员建立为独立的RL智能体,通过单独的策略网络实现。这些智能体在由约束型EnKF模拟生成的数据集上进行训练,以学习其各自集成成员的时间演化。
定义与EnKF一致的RL智能体
为了设计一个反映EnKF功能的RL智能体,RL-DAUNCE采用了基于集成的公式。具体来说,RL智能体被建模为N个策略网络的集成,每个策略网络对应一个集成成员。这种设置使得每个策略作为策略分布的独立样本,有效地捕捉了学习系统动态行为的不确定性。
此外,学习任务被表述为约束优化问题,以纳入物理约束,如能量守恒。这确保了学习的策略不仅最小化预测误差,还尊重系统的基本物理特性。
带动态调整拉格朗日乘子的原始-对偶优化
原始-对偶方法为在RL中执行约束提供了一个稳健而灵活的框架。该方法解决了最大化预期奖励的原始RL问题,同时通过不等式或等式形式地纳入约束。对每个约束引入对偶变量或拉格朗日乘子,使得能够制定拉格朗日函数,结合原始目标和约束。
为了在RL-DAUNCE数据同化框架中执行线性或非线性约束,使用拉格朗日乘子根据提供的观测动态地惩罚约束违反。拉格朗日乘子根据每个行进步骤违反的严重程度进行更新,确保有效的约束执行,同时防止拉格朗日乘子无限增长。
最终,该算法结构可以写为两个步骤:
- 策略(原始)步骤:通过对拉格朗日函数执行(近似)梯度上升来更新策略。
- 对偶步骤:通过对对偶目标执行梯度上升来更新拉格朗日乘子。
这种方法确保了学习的策略在满足约束的情况下最大化奖励,为数据同化提供了一个强大的框架。
约束增强贝尔曼算子
在RL中,贝尔曼算子通过递归定义值函数起着基础性作用。在RL-DAUNCE中,引入了约束增强贝尔曼算子,允许使用惩罚约束违反的方式施加软约束。
这种公式化解释了参数λ如何控制约束和奖励最大化之间的平衡。随着λ增加,最优策略更加强调约束满足相对于奖励最大化。在极限λ→∞的情况下,智能体完全优先考虑约束满足。
带约束的RL-DA
最终,RL-DAUNCE框架通过将更新后的拉格朗日乘子纳入奖励函数来保持物理约束,从而惩罚约束违反。最大化原始-对偶奖励函数确保了约束得到执行,同时动态地调整拉格朗日乘子。
为了直接对下一时间步的变量状态施加硬约束(例如,任何估计状态的下界或上界),定义了一个约束动作空间,在其中这些边界被严格执行。这确保了结果状态保持在下界之上和上界之下,确保约束在每个时间步绝对执行。
一旦智能体集成经过训练,通过从集成策略中采样进行推断,这不仅保持了与EnKF的集成预测理念的一致性,还为基于RL的滤波器中的不确定性量化提供了原则性方法。
图1:用于约束数据同化的提议RL框架概述。RL智能体集成学习基于EnKF生成的数据提出物理上一致的动作,通过训练过程中的原始-对偶优化应用约束。系统随时间顺序演化,学习的动作受到正值性、守恒和其他约束的约束。
应用案例:马登-朱利安振荡(MJO)
为了验证RL-DAUNCE的有效性,研究人员将其应用于马登-朱利安振荡(MJO)的状态估计。MJO是热带季节内变异性的主导模式,特征是一个缓慢移动的行星尺度对流包络体,向东穿越赤道印度洋和西部/中部太平洋。它影响热带和热带外天气模式,并在调节大尺度气候现象如厄尔尼诺-南方振荡中发挥关键作用。
MJO及其随机骨架模型
MJO骨架模型描述了MJO的大尺度动力学,捕捉了MJO的几个关键特征,包括:
- 缓慢的东向传播速度(约5 m/s)
- 具有接近零群速度的特殊色散关系
- 大尺度环流中的四极结构
- MJO事件的间歇性生成
- MJO事件组织成展示增长和衰减的波列
该模型从三维原始方程推导而来,通过在垂直维度上投影到第一斜压模式,然后投影到第一经向模式,得到一个简化模型,仅依赖于赤道上的纵向坐标和时间。
约束来源:对流活动的正值性和能量守恒
MJO骨架模型中的第一个约束是对流活动A的正值性,这是由于其物理表示。第二个特征涉及其能量,在没有随机强制和平衡源项的情况下,模型保持正总能量。值得注意的是,当出现随机噪声时,总能量不会严格守恒,这也与自然一致,小尺度扰动和阻尼效应会在一定程度上修改能量。尽管如此,施加这种软约束仍然可以在改进数据同化技能方面发挥关键作用。
EnKF和RL-DAUNCE的设置
MJO的随机和非线性特性使其成为数据同化的引人注目的测试案例。在同化过程中保持能量和A的正值对于获得准确结果至关重要。然而,这是高度非平凡的。例如,作为后处理手动强制A为正值会导致不稳定解决方案。RL-DAUNCE框架增强了在保持物理上一致解决方案的同时估计MJO状态的能力。
在数值模拟中,使用64个网格点离散化空间域,对应于40,000公里的赤道长度。观测变量仅涉及对流活动a,这与调查和监测现实世界MJO的情况一致。由于A+Ā是正的,因此使用具有零均值和方差0.0063的对数正态分布添加噪声。观测每28.8小时记录一次,在所有空间网格点上观察A。
为了确保能量变化保持在可接受范围内,对预测系统的总能量施加了约束。具体来说,定义了一个容差区间ε=[0.015,0.08],代表能量偏差的允许范围。这与物理一致,因为阻尼和随机强制会随时间改变总能量,尽管能量在某一水平附近大致稳定。在RL过程中的每个训练步骤,更新拉格朗日乘子λ以惩罚RL预测动作的总能量与这个指定区间的偏差。
此外,作为硬约束执行A+Ā的正值保持至关重要,因为这对于估计过程的稳定性和对流活动的物理可解释性至关重要。为了实现这一点,对应于状态变量A的动作空间从下方被限制为-Ā。
评估结果
RL-DAUNCE与约束型EnKF在恢复MJO大尺度特征方面表现出相似的均方根误差(RMSE)和相关性(Corr),表明两种方法在重建MJO大尺度特征方面具有相似能力。
图2:状态变量K、R、Z、A和MJO在固定空间位置的时间轨迹。每个子图比较了地面真值(黑色)、约束型EnKF的均值和不确定性(蓝色)以及RL-DAUNCE框架的均值和不确定性(红色)。RL-DAUNCE预测在均值状态和不确定性方面紧密跟随约束型EnKF,展示了RL-DAUNCE复制类似EnKF同化性能的能力。
在时间轨迹方面,RL-DAUNCE产生的不确定性区域与约束型EnKF的紧密匹配,表明RL-DAUNCE严格捕捉了底层不确定性结构。此外,所有变量的平均状态轨迹与约束型EnKF保持一致,紧密跟随真实状态,即使可观测的只涉及A的噪声信号。特别是,RL-DAUNCE成功恢复了出现在对流活动A信号中的间歇性极端事件。
图3:MJO变量在空间-时间域中的Hovmöller图。
Hovmöller图展示了状态变量和MJO在空间和时间上的演化。RL-DAUNCE重建与EnKF结果和真实状态表现出强烈一致性,成功捕捉了主导波模式、传播特性、空间-时间域中的变异性和间歇性现象。
图4:不同方法间集成总能量的比较。RL-DAUNCE通过部署约束执行算法成功保持总能量。然而,如果不应用约束执行,即使RL使用约束型EnKF数据进行训练,总能量也不会被保持。这突显了约束执行在保持物理特性方面的关键作用。每条虚线代表一个集成的能量演化。
在总能量方面,当RL-DAUNCE使用由约束型EnKF生成的数据进行训练,并在预测过程中应用约束执行算法时,所有集成的总能量有效地保持在区间内。此外,RL-DAUNCE和约束型EnKF中波动范围是相当的。相比之下,如果在RL训练过程中省略约束执行,即使RL模型在相同的ENKF数据上进行训练,总能量也不再被保持。这种比较突显了约束执行在确保学习模型尊重底层物理定律方面的基本作用。
结论与未来方向
RL-DAUNCE代表了数据同化领域的重大进步,通过将强化学习与物理约束相结合,提供了一种计算效率高且物理上一致的方法。与经验性的事后修正不同,RL-DAUNCE通过两种内在机制执行基本定律:(1)在训练过程中动态惩罚约束违反的原始-对偶优化策略,和(2)对RL动作空间的硬边界以保持状态变量有效性。
RL-DAUNCE的独特特性使其成为处理非线性、多变量和间歇性现象的强大工具。它的集成启发架构使RL智能体能够镜像集成成员,保持与传统数据同化的兼容性,同时利用RL的自适应学习。通过让每个智能体独立演化,RL-DAUNCE促进了不确定性量化,捕获了超出平均状态估计的完整分布信息。
未来研究方向包括进一步降低计算成本,特别是探索跨类似动力系统的转移学习,以显著降低训练成本。此外,RL-DAUNCE在解决多模型数据同化问题和处理结构模型不确定性方面显示出潜力。结合深度RL的计算策略,RL-DAUNCE有望解决实际应用中遇到的高维问题。
总的来说,RL-DAUNCE代表了数据同化领域的重要进步,为处理复杂系统提供了一种计算效率高且物理上一致的方法,特别是在传统方法面临挑战的情况下。
论文:https://arxiv.org/abs/2505.05452
本文转载自顿数AI,作者:葱葱
