
SVERL理论框架:用Shapley值解释强化学习的突破性方法
从黑盒到透明:用Shapley值揭开强化学习的决策机制
强化学习(Reinforcement Learning,RL)作为人工智能的重要分支,已经在多个领域展现出超越人类的表现,从掌握复杂游戏(如AlphaGo)到控制现实世界系统(如核聚变反应堆调节)。然而,与人类不同,强化学习智能体通常无法解释其行为背后的原因,这使得人们难以理解或信任它们的决策。这种不透明性限制了强化学习在安全关键领域的应用,因为在这些领域中,人类的信任和问责至关重要。
英国巴斯大学的Daniel Beechey、Thomas M.S. Smith和Özgür Şimşek团队在最新研究中提出了一个名为"用Shapley值解释强化学习"(Shapley Values for Explaining Reinforcement Learning,SVERL)的理论框架,旨在通过分析状态特征对智能体行为的影响,提供对强化学习决策过程的深入解释。该研究是他们早期发表在国际机器学习会议(ICML)上工作的扩展版本,为解释强化学习提供了一个数学严谨的基础。
强化学习解释的三个核心要素
SVERL框架确定了强化学习中三个需要解释的核心要素:
- 行为(Behaviour)智能体如何选择行动?这关注的是智能体的决策过程。
- 性能(Performance)这些行动获得了什么奖励?这评估了智能体实现目标的效果。
- 价值估计(Value Estimation)如何估计这些奖励?这探讨了我们如何预测智能体行动的后果。
这三个要素共同提供了对智能体如何与环境交互的全面理解。为了说明这些要素的区别,研究团队使用了一个自动驾驶车辆导航的例子:
在这个例子中,自动驾驶车辆需要根据路标导航到目的地。路标提供方向指引和距离信息,影响车辆的决策过程:
- 解释行为车辆在第一个路口选择右转,因为路标指示该方向。如果路标缺失或不正确,车辆可能会选择不同的路线。
- 解释性能车辆选择的路线能否以最短时间到达目的地?在图中,车辆可以在第一个路口选择左转或右转,两条路径都能以相同距离到达目的地。
- 解释价值估计第一个路标显示目的地距离10英里,第二个路标显示只有2英里。我们预期在2英里处的预期回报高于10英里处,因为智能体更接近目标。
Shapley值:公平分配贡献的数学工具
SVERL框架的核心是将Shapley值应用于强化学习的解释。Shapley值源自合作博弈论,由Lloyd Shapley在1953年提出,用于公平地分配合作者之间的贡献。在强化学习环境中,研究者将状态特征视为"玩家",这些玩家合作产生行为、性能或价值估计。
Shapley值基于四个公理定义了一个公平的贡献分配方案:
- 效率(Efficiency)所有特征的贡献总和等于总体结果与基线之间的差异。
- 线性性(Linearity)如果将两个独立的游戏组合成一个新游戏,每个特征在组合游戏中的贡献等于其在各个独立游戏中贡献的加权和。
- 对称性(Symmetry)如果两个特征对所有可能的特征组合产生相同的边际贡献,则它们被分配相同的贡献值。
- 零贡献(Nullity)如果一个特征对所有可能的特征组合都没有边际贡献,则其贡献值为零。
这些公理确保了Shapley值在解释强化学习时具有数学上的严谨性和直观的解释性。
SVERL框架:解释强化学习的统一方法
解释智能体行为
在SVERL框架中,解释智能体行为的关键是分析状态特征如何影响智能体在特定状态下选择特定动作的概率。研究者将这个问题建模为一个离散策略博弈(Discrete Policy Game):
定义1(离散策略博弈):一组特征ℱ={1,…,n}和一个特征函数π̃ᵃₛ,其中π̃ᵃₛ(𝒞)返回当智能体只知道𝒞⊆ℱ中特征的值时,在状态s选择动作a的概率。
这个博弈的Shapley值ϕᵢ(π̃ᵃₛ)表示特征i对选择动作a的概率的贡献。
一个关键问题是:当某些状态特征未知时,如何定义智能体的行为?研究者提出了一种基于条件稳态分布的方法:
定义5(策略特征函数):当特征𝒞̄的值未知时,选择动作a的概率定义为给定已知特征值s𝒞的条件下选择a的期望概率:
π̃ᵃₛ(𝒞) ≡ μ(s𝒞,a) = 𝔼[π(S,a)|S𝒞=s𝒞]
这确保了当只有特征𝒞中的值已知时,特征函数π̃ᵃₛ(𝒞)提供了对原始策略π的最佳近似。
解释性能
性能解释关注的是特征如何影响智能体获得的预期回报。研究者定义了性能博弈(Performance Game):
定义12(性能博弈):一组状态特征ℱ={1,…,n}和一个特征函数ṽᵖₛ,其中ṽᵖₛ(𝒞)表示当策略π只能访问𝒞⊆ℱ中的特征值时,从状态s获得的预期回报。
性能特征函数定义为:
定义14(性能特征函数):当智能体只能访问特征𝒞中的值时,从状态s获得的预期回报定义为:
ṽᵖₛ(𝒞) = 𝔼μ[Gt|St=s]
其中策略μ在状态s时使用部分信息策略π̃ᵃₛ(𝒞),在其他状态使用完全观察策略π。
解释价值估计
价值估计解释关注的是特征如何影响对预期回报的估计,而不改变智能体的行为。研究者定义了价值估计博弈(Value Estimation Game):
定义16(价值估计博弈):一组特征ℱ={1,…,n}和一个特征函数v̂ᵖₛ,其中v̂ᵖₛ(𝒞)表示当只观察到特征值s𝒞∈𝒮𝒞时的估计预期回报。
价值估计特征函数定义为:
定义20(价值估计特征函数):当只观察到特征𝒞中的值时,从状态s获得的估计回报为:
v̂ᵖₛ(𝒞) ≔ ûᵖ(s𝒞) = 𝔼[v̂ᵖ(S)∣S𝒞=s𝒞]
通过实例理解SVERL
研究团队通过多个示例展示了SVERL框架在实践中的应用,包括Mastermind游戏和扫雷游戏。
Mastermind示例
在Mastermind游戏中,环境随机选择一个由四个字母组成的代码(AA、AB、BA或BB),智能体需要猜测这个代码。每次猜测后,环境会返回两种反馈:正确位置的字母数量和位置错误但字母正确的数量。
图中展示了三个连续状态的Shapley值归因:第一列显示了游戏进程,第二列显示了特征对选择最优动作概率的贡献(行为),第三列显示了对智能体性能的贡献,第四列显示了对智能体回报估计的贡献。
在初始状态,智能体选择代码AA。行为解释突出了空白的底行(对应于智能体的第一个代码)作为选择此动作的最大贡献者。这反映了智能体的策略在没有先前信息的初始状态下选择AA。同样,价值估计解释也突出了这一行,但表明它降低了智能体的估计回报。相比之下,性能解释没有将责任归因于任何特征,正确表明所有可能的初始代码都会产生最大预期回报。
扫雷示例
扫雷游戏在4×4网格上进行,有两个隐藏的地雷随机放置在每个回合开始时,所有方格都未打开。智能体选择未打开的方格来揭示无地雷方格(显示相邻方格中地雷总数的数字)或地雷(结束回合,奖励-1)。
图中展示了扫雷游戏中两个连续状态的Shapley值归因。在第一个状态,最优动作是打开(4,2)方格。许多特征提供了关于第一个地雷(M1)的信息,但只有(4,2)下的线索能识别第二个地雷(M2)的位置。因此,这个线索对于安全和最优游戏至关重要。行为和性能解释都对这个特征给予了高度归因。
在扫雷游戏中,未打开方格越多,关于地雷位置的不确定性就越大,因此预期回报越低。这反映在价值估计的解释中,未打开的方格获得负面归因,而已打开的方格获得正面归因。
SVERL的理解与解释
SVERL提供了一个视角,通过这个视角我们可以理解个别特征值如何影响智能体的行为、性能和价值估计。这些见解超出了仅观察策略或预期回报所能揭示的范围。
比较解释
SVERL框架中的三种解释捕捉了强化学习的不同方面:
- 行为解释揭示了特征如何影响智能体的行动选择。
- 性能解释揭示了特征如何影响预期回报。
- 价值估计解释揭示了特征如何影响预期回报的估计。
理解这些视角何时一致、何时分歧对于形成对智能体-环境交互的全面理解至关重要。例如,在Mastermind的最终状态,行为和性能解释是一致的:同样的特征既驱动了智能体猜测AB的决定,也决定了结果:它们揭示了正确的代码并导致最高可能的回报。
然而,在Mastermind的初始状态,空白底行有助于第一次猜测,但对性能没有影响,因为所有初始猜测都会产生相同的回报。这突显了一个微妙但重要的观点:一个特征可以塑造智能体的行为而不影响该行为产生的回报。
解释SVERL
与任何特征归因方法一样,解释SVERL需要谨慎。虽然Shapley值揭示了特征如何影响行为、性能或回报估计,但它们不一定解释了为什么。人类用户自然会基于这些值形成信念或假设,但很容易过度解释或错误归因因果关系。
例如,在扫雷游戏中,SVERL在第二个状态为包含地雷的未打开方格分配了负面性能归因。人们可能会得出结论,观察这些特征会降低性能,因为它增加了智能体打开它们的可能性。这是一个合理的假设,但必须进行验证。
SVERL的局限性与未来工作
尽管SVERL为解释强化学习提供了坚实的理论基础,但仍存在一些局限性和未来工作的方向:
解释更广泛的智能体-环境交互
SVERL专注于解释特定状态或特定动作的智能体行为。理解更广泛的行为通常涉及推理许多交互中的趋势。研究者探讨了如何聚合SVERL的解释以提供更广泛的见解,例如通过稳态分布或策略分布的期望。
近似SVERL
计算SVERL的解释在计算上是昂贵的。每个特征函数涉及对整个状态空间的期望,每个Shapley值定义为对特征的所有2|ℱ|子集的求和。研究者提出了一些近似技术,如蒙特卡洛采样,以使SVERL在大型领域中实用。
使用价值估计来指导行为
SVERL的价值估计解释揭示了特征值如何影响智能体的回报估计。一个有趣的可能性是使用这些信息来指导行为,例如,鼓励导致正面归因特征的动作,或识别应该改变以提高预期回报的负面归因特征。
结论
SVERL框架为解释强化学习提供了一个理论基础,通过Shapley值的公平归因原则,揭示了状态特征如何影响智能体的行为、性能和价值估计。这种方法产生了一系列数学上有根据的解释,具有清晰的语义和理论保证。
通过提供对强化学习智能体决策过程的深入理解,SVERL有望增强人类对这些系统的信任,并促进它们在安全关键领域的负责任部署。随着强化学习继续在各种应用中取得突破,像SVERL这样的解释框架将成为确保这些系统透明、可信和可问责的关键工具。
论文链接:https://arxiv.org/abs/2505.07797
本文转载自顿数AI,作者:小顿
