论文翻译 —— Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions

最新推荐文章于 2022-09-07 21:11:21 发布

云端FFF

最新推荐文章于 2022-09-07 21:11:21 发布

阅读量420

点赞数 2

分类专栏： # 论文翻译文章标签：强化学习可解释性

原文链接：https://arxiv.org/abs/2010.05180

版权

论文翻译专栏收录该内容

7 篇文章 2 订阅

订阅专栏

标题：Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
文章链接：Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
presentation & slides： Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
OpenReview: Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
发表：ICLR 2021 oral
领域：强化学习 —— 解释性
注：
1. 本来这次想尝试一下新的读论文方法，就是每一段读懂之后写英文小结，这样边读边归纳理解，但是整了一下感觉这样搞太慢了，这个文章又比较长，所以除了第一段尝试一下以外，从第二段开始还是直接翻译了
2. 这个文章做了巨多实验，附录10+页…我也没仔细看，那部分就不放了

摘要：我们研究了一种新型 Deep RL 体系结构，该体系结构可以解释 agent 对动作的偏好。本文的 key idea 是学习一种特殊的动作价值网络，其产生的价值估计可以通过人类能理解的属性的未来期望直接表示。这是通过嵌入式自我预测（embedded self-prediction, ESP）模型实现的，该模型根据人类提供的特征学习上述属性。然后，可以通过对比每个动作的未来属性预测来解释动作偏好。为了解决存在大量特征的情况，我们开发了一种计算ESP最小充分解释的新方法。我们在包括复杂策略游戏在内的三个领域进行实验，研究表明，ESP模型可以有效学习并给出深刻的偏好解释

1. Introduction

在这里插入图片描述

Consider the explanation of action preference in Sequential decision making problems
1. Traditional RL agents can only explain their action preference by predicted action values, which provide little insight into its reasoning
2. Human can explain their preference by contrasting meaningful properties of the predicted futures following each action
In this paper, the author proposed an approach, utilizing GVFs (generalized value functions) to predict the future accumulation of arbitrary features when following a policy. Thus, given human-understandable features, the corresponding GVFs capture meaningful properties of a policy’s future trajectories.
Four contribution of this paper
1. embedded self-prediction (ESP) model：“embeds” meaningful GVFs into agent’s action-value function and train those GVFs to be “self-predicting” of the agent’s Q-function maximizing greedy policy.
2. ESP model is circularly defined, the policy depends on the GVFs, and GVFs depends on policy. So author proposed ESP-DQN algorithm to make it easier to train and convergence.
3. The author use IG (integrated gradient) to produce well-defined explanations, use the notion of minimal sufficient explanation to simplify explanations while remaining sound to further support cases with many features.
4. Case studies in two RL benchmarks and a complex real-time strategy game
In Defence of Manually-Designed Features: Only if we have meaningful features can we explain the preference on top of higher-level perceptual information. The author argue that for many applications that can benefit from informative explanations, the utility of providing engineered meaningful features is outweigh the cost. Further
1. In many applications, meaningful features already exist
2. The level of effort to acquire them from domain experts and AI engineers is reasonable
So the author thought that it’s important to develop deep learning methods that can deliver enhanced explainability when such features are available

2. Embedded Self-Prediction Model

MDP $< S, A, T, R >$
1. $S, A$ ：状态集、动作集
2. $T (s, a, s^{'})$ ：环境转移矩阵
3. $R (s, a)$ ：奖励函数
4. $\pi:S\to A$ 的映射
5. $Q^\pi(s,a)$ ： $\beta$ 折扣的奖励累计和的期望： $\mathbb{E}^\pi[r_t+\beta r_{t+1}+\beta^2 r_{t+2}+...|S_t=s,A_t=a]$
6. $Q^*$ ：满足 $\pi^*(s) = \arg\max_aQ^*(s,a)$ 。给定 MDP，就可以通过反复应用 Bellman Backup Operator 进行计算
7. 对于任意动作价值函数 $Q$ ，可以如下更新（这就是 Q 函数的 bellman 最优等式）
  $R(s,a)+\beta \sum_{s'}T(s,a,s')max_{a'}Q(s',a')$
考虑下面这类 RL agent
1. 学习 $Q^*$ 的估计值 $\hat{Q}$
2. 遵循贪心策略 $\hat{\pi}(s) = \arg\max_a \hat{Q}(s,a)$
目标：解释状态下动作偏好，比如为何 $\hat{Q}(s,a)>\hat{Q}(s,b)$ 。这些解释应该有人类能理解的语义，并且能很好地反映agent的实际偏好。
Generalized Value Functions (GVFs)：GVFs 是传统价值函数的一般化，它是任意特征的期望折扣累计和函数，具体说，给定一个策略 $\pi$ 、一个 n 维状态动作特征函数 $F(s,a) = <f_1(s,a),f_2(s,a),...,f_n(s,a)>$ 、一个折扣因子 $\gamma$ ，相应的 n 维 GVF 代表 “在状态 $s$ 执行动作 $a$ 后，在无限 horizon 上按照 $\pi$ 行动的 $\gamma$ 折扣的 $F$ 累计和的期望”，记为 $Q_F^\pi(s,a) = \mathbb{E}\big[F(s,a)+\gamma F(s',a')+\gamma^2 F(s'',a'')+...\big]$ 。给定 MDP，可以通过反复应用 Bellman GVF Operator 来计算 $Q_F$ ，对于任意 GVF $Q_F$ ，可以如下更新
$B_F^\pi[Q_F] = F(s,a) +\gamma \sum_{s'}T(s,a,s')Q_F(s',\pi(s'))$
为了产生人类可理解的解释，假设存在有语义意义的特征，例如，预期的能源使用，或在特定空间区域花费的时间，或未来的高度变化… 这样相应的 GVF 就能描述有意义属性的未来期望
ESP Model Definition：给定策略 $\pi$ 和特征 $F$ ，我们可以通过 GVF 差异 $\triangle_F^\pi (s,a,b) = Q_F^\pi(s,a)-Q_F^\pi(s,b)$ 来对比动作 $a$ 和 $b$
1. 这些 GVF 差异可以有意义地解释采取不同 action 对未来影响的差异
2. 然而，这种差异不一定能很好地解释 agent 偏好，因为 agent 在选择动作时可能不会明确地考虑这些 GVFs
因此，ESP 模型强制 agent 根据其策略的 GVF 定义直接定义动作价值及偏好，这样这些 GVF 差异就可以被合理地利用

图1：ESP 模型提供了对 agent（对任何 (s,a) 二元组）的 Q 函数的估计。该模型首先将 (s, a) 映射到 agent 在其 $\hat{Q}$ 上贪心策略 $\hat{π}(s)$ 的 GVF 向量 $\hat{Q}_F^{\hat{\pi}}$ 。然后由组合函数 $\hat{C}$ 处理这个向量，从而产生 Q 值估计 $\hat{Q}(s,a)$ 。嵌入式 GVF 是自我预测的，因为它预测的是贪婪策略的价值，而贪婪策略正被用于计算该值（决定了输入的 (s,a) pair）
如图1所示，ESP 模型将 agent 贪婪策略 $\hat{\pi}$ 的 GVF $Q_F^{\hat{\pi}}$ 嵌入到 agent 的 Q 函数 $\hat{Q}$ 中，使用 $\hat{Q}(s,a) = \hat{C}(\hat{Q}_F(s,a))$ 把 GVF 向量映射到动作价值，其中 $\hat{C}:R^n\to R$ 是一个要学习的组合函数
1. 当 GVF 折扣因子 $\gamma = 0$ 时，ESP 模型就成为特征的直接组合，即 $\hat{Q}(s,a) = \hat{C}(F(s,a))$ ，这是使用特征进行函数逼近的传统方法
2. 使 $\gamma>0$ ，我们可以以一种潜在的更强大的方式利用人类提供的特征。因为 ESP agent 通过 GVF 组件表示动作价值，所以有可能根据 GVF 产生合理的偏好对比解释，如第 4 节所述
一般来说，使用 ESP 模型学习高质量 Q 函数和并产生策略，要求 GVF 特征具有足够的表现力。虽然在概念上，使用奖励信号作为单个特征足以学习 Q 函数（这时 GVF 是 Q 函数，使用 identity 函数作为组合函数 $\hat{C}$ ），但该选择可解释性不佳。因此，我们希望使用一组特征，既能有意义地分解环境的重要方面，同时又有具有足够的表达能力以组合成 Q 函数的 GVFs。在第 6 节中，我们描述了在我们的实验环境中用于 GVF features 的通用模式

3. ESP Model Training: ESP-DQN

我们将学习到的组合函数 $\hat{C}$ 和 GVF $\hat{Q}$ 表示为具有参数 $\theta_C$ 和 $\theta_F$ 的神经网络。目标是优化参数，使
1. $\hat{Q}(s,a) = \hat{C}(\hat{Q}_F(s,a)) \to Q^*$
2. $\hat{Q}_F(s,a) \to Q_F^{\pi^*}(s, a)$
GVF 精度条件很重要，因为人类会在解释偏好时解释 GVF 值。一个潜在的学习问题是循环依赖： $Q_F^{\hat{\pi}}$ 既是 $\hat{Q}$ 的输入，又通过贪婪策略 $\hat{\pi}$ 依赖于（取决于） $\hat{Q}$ 。下面我们概述我们的学习算法 ESP-DQN，它是 DQN 的一种变体（Mnih 等人，2015 年），我们后来证明它在实践上是有效的。附录 A 中提供了完整的伪代码。
ESP-DQN 遵循 $\epsilon$ -greedy 探索策略，同时将转移添加到重放缓冲区 $D = \{(s_i, a_i , r_i , F_i , s_i')\}$ ，其中 $F_i$ 是 GVF 训练的特征向量。每个学习步骤使用 mini-batch 更新 $\theta_C$ 和 $\theta_F$ 。与 DQN 一样，target 网络使用第二组目标参数 $\theta_C'$ 和 $\theta_F'$ ，定义目标组合函数 $\hat{C}'$ 和 GVF 函数 $\hat{Q}_F'$ ，产生目标 Q 函数 $\hat{Q}'(s,a) = \hat{C}’(\hat{Q}'_F(s,a))$ 。每 K 个学习 step，使用非目标参数更新目标参数的值，否则目标参数值保持不变

3.1 Combination Function Update

由于 $\hat{C}$ 的输出应该逼近 $Q^*$ ，可以使用传统的 DQN 方法更新 $\theta_C$ ，在更新时需要固定 $\theta_F$ ，这时 GVF 输出 $\hat{Q}_F(s,a)$ 可以看作 $\hat{C}$ 的固定输入。给定一个 mini-batch，使用 L2 loss $\sum_{i=1}^n(y_i-f(x_i))^2$ 来更新参数 $\theta_C$ ，第 $i$ 个样本的目标值 $y_i = r_i+\beta \hat{Q}'(s_i',\hat{a}_i')$ ，其中 $\hat{a}_i'=\arg\max_a\hat{Q}'(s',a)$ 是 target 网络上的贪心动作

3.2 GVF update

训练 $Q_F^\pi$ 类似于在 actor-critic 方法中学习一个 critic，以获得一个进化贪心策略（evolving greedy policy），但这里不是学习预测长期累积的 reward（即return），而是预测长期累积的特征 $F$ 。给定一个 mini-batch，我们根据 $\hat{Q}_F$ 的输出和目标值 $y_i = F_i+\gamma \hat{Q}_F'(s_i',\hat{a}_i')$ ，使用 L2 损失更新 $\theta_F$ ，其中 $\hat{a}'$ 是与上面相同的， target 网络上的贪心动作

3.3 Convergence

即使有表达力足够强的特征，function approximation 和 Q-learning 的大多数组合方法，包括 DQN，都没有一般的收敛保证（Sutton & Barto，2018）。相反，对于记录每个 (s,a) pair 价值的表格型表示，比如导出了 DQN 的 Q-learning 方法，几乎肯定会收敛到 $Q^*$ （Watkins & Dayan，1992），这至少表明 DQN 是建立在的合理的原则上的。我们现在考虑 ESP-Table 的收敛性，ESP-Table 是 ESP-DQN 的表格型模拟，它使用大小为 1 的 mini-batch 并每 K 步更新 target table（即 target networks 的类似物）。 ESP-DQN 由两个部分组成
1. $\hat{Q}_F$ 表：建立在所有 (s,a) pair 上的表格
2. 对于 $\hat{C}$ ，假设有一个哈希函数 $h$ 将连续的 GVF 输入映射到一个有限表。由于 GVF 是有界的，这可以通过以任意小的间隔进行差分来实现
由特征和哈希函数组成的 pair $(F, h)$ 必须具有足够的表现力（sufficiently expressive）以提供收敛保证。首先，我们假设 $h$ 是局部一致（local consistent）的，这意味着对于任何输入 $q$ 都存在一个有限值 $\epsilon$ 使得 $\forall |q'-q|\leq \epsilon,h(q)=h(q')$ 。其次，我们假设 $(F, h)$ pair 是 Bellman Sufficient 的，这个概念表征了使用 Bellman GVF backups（参见第 2 节）之后， $\hat{C}$ 表格的表示能力

Definition 1 (Bellman Sufficiency)：任意使用贪心策略 $\hat{\pi}(s) = \arg\max_a \hat{Q}(s,a)$ 的 ESP 模型 $\hat{Q}(s,a) = \hat{C}(\hat{Q}_F(s,a))$ ，对于任意状态-动作二元组 $(s, a)$ 和 $(x, y)$ 若
$h(\hat{Q}^+_F(s,a)) = h(\hat{Q}^+_F(x,y)) \Rightarrow B[\hat{Q}](s,a) =B[\hat{Q}](x,y) \\ \space\\ where \space\space \hat{Q}^+_F = B_F^{\hat{\pi}}[\hat{Q}_F]$
则称由特征 $F$ 和哈希函数 $h$ 组成的 $(F, h)$ pair 是 Bellman Sufficient 的
定义以下符号表示： $\hat{C}^t,\hat{Q}_F^t,\hat{Q}^t,\pi^t$ 分别代表更新 t 步后的组合函数、GVF、相应的 Q 函数和贪心策略。给定足够大的更新间隔 $K$ ，下面给出 $\hat{\pi}^t$ 收敛到 $\pi^*$ ， $\hat{Q}_F^t$ 收敛到 $Q_F^*$ 邻域的条件

Theorem 1：如果 ESP-Table 在 Q-learning 几乎肯定 (almost surely) 收敛的标准条件下运行，并使用 Bellman Sufficient 的 $(F, h)$ 其中 $h$ 具有局部一致，那么对于任何 $\epsilon > 0$ 都存在有限的目标更新间隔 $K$ ，使得对于所有 $s$ 和 $a$ ， $\hat{\pi}^t(s)$ 几乎肯定收敛到 $\pi^*(s)$ ，并且 $\lim_{t\to\infin} |\hat{Q}^t_F(s,a)-Q_F^*(s,a)| \leq \epsilon$ 的概率为 1
完整的证明见附录 B。对于 $K = 1$ 是否有更强的收敛结果是一个悬而未决的问题，这类似于传统 Q-learning 的结果

4. Contrastive Explanations for The ESP Model

我们关注动作偏好 $\hat{Q}(s,a)>\hat{Q}(s,b)$ 的对比解释，偏好幅度 $\hat{Q}(s,a)-\hat{Q}(s,b)$ 可以根据 GVF 偏差向量 $\triangle_F(s,a,b) = \hat{Q}_F(s,a)-\hat{Q}_F(s,b)$ 的分量进行分解。偏好解释形如元组 $\big<\triangle_F(s,a,b),W(s,a,b)\big>$ ，其中 $W(s,a,b)\in R^n$ 是 $\triangle_F(s,a,b)$ 对应的权重向量。解释的意义（meaningfulness）很大程度上取决于 GVF 特征的意义。如果 $\hat{Q}(s,a)-\hat{Q}(s,b) = W(s,a,b)·\triangle_F(s,a,b)$ ，我们说解释是有合理的，因为它可以表示偏好幅度 $\hat{Q}(s,a)-\hat{Q}(s,b)$ 。我们对只返回合理解释的 explanation method 感兴趣，因为这些解释可以被视为代理偏好的证明。特别地，该定义意味着
$W(s,a,b)·\triangle_F(s,a,b) >0 \Leftrightarrow \hat{Q}(s,a)-\hat{Q}(s,b) > 0$
在简单情况下，组合函数 $\hat{C}$ 为使用权重 $\in R^n$ 的线性函数，这时有 $\hat{Q}(s,a)-\hat{Q}(s,b) = w·\triangle_F(s,a,b)$ ， $w$ 是偏好幅度因子，这时 $\big<\triangle_F(s,a,b),w\big>$ 是对任何偏好的合理解释

4.1 Non-Linear Combining Functions

当难以通过对特征的线性组合给出好的策略时，使用非线性组合函数是必要的。由于上述线性分解方法不直接适用于非线性 $\hat{C}$ ，因此我们引入了 Integrated Gradient (IG)（Sundararajan 等人，2017 年），该梯度最初是为了评估单个输入相对于 “baseline” 输入的特征重要性而开发的。为了使 IG 适应我们的设置，我们将不太喜欢的动作作为 baseline
把比较动作 $a, b$ 的 GVF 输出记为 $X_{sa}=\hat{Q}_F(s,a)$ 和 $X_{sb}=\hat{Q}_F(s,b)$ ，给出一个可微的组合函数 $\hat{C}$ ，IG 通过在 $X_a$ 和 $X_b$ 之间插值的同时对 $\hat{C}$ 的梯度进行积分来计算分量 $i$ 的属性权重 $\theta_i(s,a,b)$ ，也就是说
$\theta_i(s,a,b) = \int_0^1\frac{\partial \hat{C}(X_{sb}+\alpha(X_{sa}-X_{sb}))}{\partial X_{sa,i}}d\alpha$
（这里被积函数是一个变分形式）这可以通过有限差分来近似
IG 的一个关键特性是它线性地将特征差异归因于整体输出差异，即 $\hat{C}(X_{sa})-\hat{C}(X_{sb}) = \theta(s,a,b)·(X_{sa}-X_{sb})$ ，这给出了 ESP 模型中的一个关键关系
$\hat{Q}(s,a)-\hat{Q}(s,b) = \hat{C}(\hat{Q}_F(s,a)) -\hat{C}(\hat{Q}_F(s,b)) = \theta(s,a,b)·\triangle_F(s,a,b) \tag{1}$
因此 $\big<\triangle_F(s,a,b),\theta(s,a,b)\big>$ 是一个合理的解释，这是上面线性形式的一个泛化，因为对于权重为 $w$ 的线性 $\hat{C}$ 函数，有 $\theta(s,a,b) = w$ 。在实践中，我们通常通过显示每个分量的柱状图来可视化 $I G X (s, a, b)$ ，其大小为 $\theta_i(s,a,b)·\triangle_F(s,a,b)$ ，它反映了对偏好的正/负贡献

4.2 Minimal Sufficient Explanations

当有很多特征时， $I G X (s, a, b)$ 可能会让用户云里雾里（overwhelm user）。为了彻底缩小规模，我们使用了最小充分解释 (Minimal Sufficient Explanations,MSX) 的概念，这是最近为线性奖励分解模型的受限空间而开发的（Juozapaitis 等人，2019 年）。然而，等式 1 允许使 MSX 适应我们的非线性设置。设 $P$ 和 $N$ 是对偏好具有正负贡献的 GVF 组件的索引，即
$\{i : \triangle_{F,i}(s,a,b)·\theta_i(s,a,b)>0\} \\ \space\\ N = \{1, . . . , n\} − P$
此外，对于具有索引 $E$ 的任意子集，设 $\sum_{i\in E}|\triangle_{F,i}(s,a,b)·\theta_i(s,a,b)|$ 是分量的总大小，这样偏好就能表示为 $S (P) > S (N)$ 。MSX 的关键思想是通常只需要一小部分正分量来克服负分量并保持 $a$ 对 $b$ 的偏好。MSX 是这些正分量组件的最小集合。因此，MSX 是 $\arg\min\{|E|:E\subseteq P,S(E)>S(N)\}$ 的解，这通常不是唯一的。我们对 $P$ 中的索引根据权重进行排序，并将索引从大到小包含到 MSX 中，直到总量大于 $S (N)$ ，从而选出具有最大正权重的解

5. Related Work

先前的工作考虑了具有已知权重的线性奖励分解模型，用于
1. 加速 RL（Van Seijen 等人，2017）
2. 多智能体 RL（Russell 和 Zimdars，2003 年；Kok 和 Vlassis，2004 年）
3. 解释（Juozapaitis 等人，2019）
这是 ESP 模型的一个特例，其 GVF 特征等于奖励分量的线性组合函数。广义价值函数网络（Schlegel 等人，2018 年）是一个相关但正交的模型，它通过将 GVF 视为其他 GVF 积累的特征来组合 GVF（with given policies）。相反，我们的 GVF 用作组合网络的输入，该网络又定义了用于 GVF 定义中的策略。集成 GVF 网络和 ESP 模型是一个值得考虑的有趣方向。
线性模型的 MSX 最初是用于 MDP 规划（Khan 等人，2009 年），最近用于奖励分解（Juozapaitis 等人，2019 年）。我们将其扩展到非线性情况。最近的对比解释方法（Waa 等人，2018 年）在解释时从策略模拟中提取属性（Waa 等人，2018 年），这可能很昂贵或无法实现。此外，这些解释并不合理，因为它们与agent的内部偏好计算无关。
显着性解释已在 RL 中用于指示输入图像的重要部分（Greydanus 等人，2018 年；Iyer 等人，2018 年；Gupta 等人，2020 年；Atrey 等人，2020 年；Olson 等人，2019 年）。这些方法缺乏清晰的解释语义，因此没有任何健全的概念

6. Experimental Case Study

下面介绍我们的领域和实验，解决以下这些问题：
1. （第 6.2 节）我们可以学习性能与标准模型一样好的 ESP 模型吗？
2. （第 6.2 节）学习的 ESP 模型是否具有准确的 GVF？
3. （第 6.3 节）我们的解释是否提供了有意义的见解？

6.1 Environment Description

Schema for Selecting GVF Features：在介绍环境之前，我们首先描述在这些环境中选择 GVF 功能的模式（schema）。模式可以作为将 ESP 模型应用于新环境的一般起点。一般来说，情节环境有两种主要类型的奖励
1. 终止奖励（terminal-reward），在轨迹结束时给出，取决于最终状态
2. 终止前奖励（pre-terminal rewards），发生在轨迹期间，取决于状态和/或动作。
由于策略的价值通常取决于两种类型的奖励，获取能捕获潜在相关的两种奖励，并且具有可解释性的 GVF 特征非常重要。因此，在每个 domain 中，如下所述，
1. 引入了一个简单的 terminal GVF 特征，描述轨迹结束时的基本情况（例如，指示滑车是否在 Cartpole 中越界）
2. 引入 pre-terminal GVF 特征，它们是从环境状态变量获取的，或从用于计算奖励函数的派生奖励变量中获得的，这些特征通常很容易从 domain description 中获得
离散状态或奖励变量可以简单地编码为 indicator GVF 特征。对于连续状态和奖励变量，我们考虑两种选择
1. 当变量具有少量有意义的区域时，我们可以使用区域的 indicator feature 作为特征，这些特征的 GVF 值可以解释为代理在每个区域中的时长
2. 我们还考虑了 delta GVF 特征，这些特征等于一个时间步长内变量的变化，这些特征的 GVF 值可以解释为变量值的未来变化
虽然在本文中，我们仅关注上述通用 GVF 特征，但 agent 设计者也可以根据他们的直觉和知识定义任意 GVF 特征

6.1.1 Lunar Lander

我们使用标准的 OpenAI Gym 版本 Lunar Lander 环境进行实验，这是一款物理模拟游戏，agent 要在每个时刻决定激活三个推进器中的哪一个（或都不激活）来安全地将火箭飞船降落在目标区域。原始状态变量是位置和速度向量，奖励函数设计为在碰撞时给出惩罚，降落在目标区域时给出奖励，并包括其他 “shaping” 奖励变量，这些变量都很容易从仿真环境中提取出来。在这个 domain 中，连续变量没有具有直观意义的离散化操作，因此我们使用 delta 特征作为解释此研究案例（ESP-continuous）的主要特征。同时，为了说明这个 domain 也可以使用离散化方法进行学习，我们还探索了将连续特征离散化为 8 个 uniform bins （ESP-discrete）的学习结果
1. pre-terminal 特征基于以下变量：离目标的距离、速度、倾斜角、右着陆腿在目标位置、左着陆腿在目标位置、使用主推进器、使用侧推进器
2. terminal 特征是一个指示是否安全着陆的 indicator 特征

6.1.2 Cart Pole

我们使用标准的 OpenAI Gym 版本 Cart Pole 环境进行实验，这是一种物理模拟任务，其中 agent 的目标是维持推车上的自由摆动杆保持垂直，每一步都可以向左或向右施加力。状态变量包括推车位置、推车速度、摆杆角度和摆杆速度，当杆子低于垂直线的某个角度、推车移动到边界或维持 500 步之后，轨迹会停止。在终止前，agent 每步获得常数 +1的奖励
由于 CartPole 变量可以离散为少量且直观有意义的区域，因此我们同时考虑了 GVF 特征的离散编码（ESP-discrete）和 delta 增量编码（ESP-continuous）
1. 对于 ESP-discrete，有 8 个 pre-terminal GVF 特征，将状态空间直观地对应到安全概念上，可将状态变量离散为一些有语义意义的区域。pre-terminal 特征包括：推车位置、推车速度、摆杆角度、摆杆角速度四个变量的两个指标，一个完美平衡的极点将始终保持在定义的安全区域内（就是每个连续变量划了一个范围，内部就是安全区域）。这些离散特征也兼作 terminal 特征，因为它们捕获了终止时的状态特征（处于安全或不安全区域）
2. 对于 ESP-continuous，我们有 12 个特征，前 8 个 pre-terminal GVF 特征对应于推车位置、推车速度、摆杆角度、摆杆角速度的正负 delta 特征。4 个 terminal GVF 特征是指示轨迹结束原因的指标特征，包括滑车向左出界、向右出界；杆落到左侧终止区域或右侧终止区域

6.1.3 Tug of War

Tug of War (ToW) 是我们使用 PySC2 为星际争霸 2 设计的对抗性两人战略游戏。ToW 游戏不但对人类而言很有趣，而且对 RL 提出了许多挑战，包括巨大的状态空间、数千个动作、长期的视野和稀疏的奖励（赢/输）。详细说明在附录 C 中。ToW 运行在一个矩形地图上，顶部和底部有两条水平车道，每个车道的两端都有两个基地结构，每个玩家一个。第一个在任一车道上摧毁对手基地的玩家获胜。游戏以 30 秒一波进行划分，每一波开始时，玩家必须决定上路还是下路，以及为该路购买各类军事生产建筑的数量，购买受到玩家可用货币的限制，每波以固定数量提供。每个购买的建筑物在每一波开始时都会生产一个指定类型的单位。单位穿过车道向对手移动，与敌方单位交战，并在足够近的情况下攻击敌方基地。三种单位分别是海军陆战队、不朽者和爆虫，它们具有石头剪刀布的关系，并且成本不同。如果 40 波后没有基地被摧毁，则基地生命值最低的玩家失败。在这项工作中，我们通过 pool-based 的 self-palying 学习（类似于 AlphaStar 训练（Vinyals 等人，2019）训练了相当强的 agent
我们给出了两种 ESP agent，分别使用 17 和 131 个结构化GVF特征（注意131个特征非常稀疏）。这些特征集在附录E中有详细说明。对于17个特征的 agent，pre-terminal 特征对应三种类型单元对四个基地中每一个的 delta 损伤，这允许 GVFs 预测每种类型部队造成的基础伤害量，从而能深入了解战略。请注意，没有自然离散的数值损伤变量，因此我们只考虑增量编码。terminal GVF 特征是游戏结束时哪个基地的最低生命值以及游戏是否达到40波的指标特征。terminal GVF 特征对游戏结束的可能方式进行编码。131特征的 agent扩展了这些特征，以跟踪每种单元类型组合在每条车道上造成的损坏，以及有关经济性的其他信息

6.2 Learning Performance

为了评估相对于 “标准” 模型，使用 ESP 模型是否会影响性能，我们与两个 DQN 实例进行比较：
1. DQN-full 使用与 ESP-DQN 相同的整体网络架构，即馈入组合网络的 GVF 网络结构，与 ESP-DQN 不同的是，DQN-full agent 无法访问 GVF 特征，也不会尝试明确地训练 GVF 网络。由于 GVF 和组合器网络之间的接口处引入的瓶颈，DQN-full 可能会受到影响
2. Vanilla DQN，它仅使用 ESP-DQN 的组合网络，但将该网络直接连接到原始代理输入
网络架构、优化器和超参数的详细信息在附录 D 中

图 2：三种环境中不同智能体的奖励学习曲线（顶行）和 GVF 损失学习曲线（底行）。我们显示了 10 次独立运行的平均值 +/- std
图 2（顶行）显示了不同代理和随机策略的学习曲线。所有曲线都是使用 10 个随机种子从头开始 10 次完整训练的平均值
1. 对于控制问题 CartPole（具有离散和连续 GVF 特征）和 LunarLander，我们看到所有智能体在接近学习结束时在统计上是不可区分的，并且在大致相同的经验后达到最佳性能。这表明训练 ESP 模型的潜在副作用并未显着影响这些领域的性能。我们看到 CartPole 的离散特征版本收敛速度比连续版本稍快，但差异相对较小。
2. 对于 ToW，ESP-DQN 代理的表现与 DQN 变体一样好或更好，所有代理都表现出更大的方差。具有 17 个特征的 ESP-DQN 始终收敛到接近 100% 的胜率，并且比具有 131 个特征的版本和其他 DQN 变体更稳定。有趣的是，具有 17 个特征的 DQN-full 始终无法学习，我们假设这是由于在架构中插入了极端的 17 个特征的瓶颈（就是有一个隐藏层很小）。看到 DQN-full 确实学习了 131 个特征，虽然比 ESP-DQN 慢，但支持这一点
为了评估 ESP-DQN 的 GVF 准确性，我们沿学习曲线生成了 ground truth GVF 数据。具体来说，在任何点给定 ESP 策略 $\hat{\pi}$ ，我们可以使用蒙特卡罗模拟来估计在测试状态集上运行 $\hat{\pi}$ 的所有动作的 $\hat{Q}^\pi_F(s,a)$ 。图 2（底行）显示了随着学习的进行，测试集上的均方 GVF 预测误差。
1. 对于每个 domain，GVF 误差在学习结束时很小，并且在策略接近其最高奖励性能时趋于迅速降低
2. 随着学习的进行，LunarLander 和 ToW 显示 GVF 误差持续减少。而 CartPole 则显示出先急剧增加然后急剧减少，这是因为最初糟糕的策略总是很快失败，使得 GVF 预测变得不重要。随着策略的改进，预测 GVF 变得更具挑战性，从而导致初始误差增加

6.3 Example Explanation

附录 F 包含大量示例，并在每个领域进行了详细分析

在这里插入图片描述

图 3：Lunar Lander（左）和 CartPole（右）的解释示例。每个示例都显示了游戏状态、动作的 Q 值和 GVF 预测，以及 IGX 和 MSX。（注：图3.a 颜色有问题，看bar中的 F number）

6.3.1 Lunar Lander

在图 3a 中，游戏状态（顶部）显示了 Lunar Lander 任务开始时的状态，agent 由近乎最优的学得 ESP 策略控制。由于箭头所示的快速向下和顺时针旋转速度，该状态是危险的。GVF（左下）显示了动作的 Q 值和预测的 GVF 条。我们看到 “主引擎” 和 “右引擎” 动作具有几乎相同的 Q 值，略微偏向于 “主引擎”，而 “左引擎” 和 “noop” 被认为明显更差。我们想了解强偏好和弱偏好的基本原理
虽然用户可以观察到不同动作的 GVF 之间的差异，但不清楚它们与参考的关系。IG 和 MSX（右下）显示了对“主引擎” 相对优先于其他三个动作的 IGX。此外，MSX 中的 IGX 组件使用虚线标出。首先关注更大的偏好，“主引擎” 优先于 “左引擎” 主要是由于速度和着陆特征的 GVF 差异，MSX 显示仅着陆就足以满足偏好。这个基本原理与常识一致，因为左发动机将加速已经很危险的顺时针旋转，需要更极端的动作，才能冒险着陆并获取相关奖励
对于相对与 “noop” 的偏好，速度特性在 IGX 中占主导地位，并且是唯一的 MSX 特性。这与直觉一致，因为如果不采取任何措施，就不能减慢危险的下降，这意味着着陆速度将对奖励产生更负面的影响。将 “主引擎” 与价值几乎相等的 “右引擎” 进行比较，可以看出轻微的偏好是基于距离和右腿着陆特征。这更随意（arbitrary），但与直觉一致，因为与主发动机相比，右发动机在降低向下速度和使船直立的同时，还会增加向左的速度。这使得其因错过右腿着陆目标和距离奖励而减少奖励的风险更大。总体而言，这些解释与直觉非常吻合，再加上类似的确认，可以增加我们对策略一般推理的信心。我们还看到 MSX 都非常小。

6.3.2 Cart Pole

我们将 Cart Pole 状态-动作解释与其相反状态产生的解释进行比较，如图 3b 所示。这种比较说明了在一种情况下，解释与直觉相符并建立信心；而在另一种情况下暴露了潜在的不准确或缺陷。
我们的原始游戏状态（左）将推车置于危险的位置，向右移动，靠近轨道的尽头。杆几乎是垂直的，向左有一个小的角速度。动作 “向左推”（向左移动推车）与直觉一致，因为推车位于屏幕的右边缘，向右移动会导致出界失败。IG 和 MSX（左）都显示了更喜欢 “向左推” 动作而不是 “向右推” 动作的主要原因是推车当前的位置接近右边缘，向左移动将使推车回到安全边界内。
通过将输入状态向量中的每个值乘以 -1 来反转游戏状态（左）产生翻转的游戏状态（右）。推车现在在危险的边缘位置向左移动。给原始情况一样，杆几乎是垂直的，现在有一个向右的小角速度。人们会期望代理执行 “向右推” 动作（与游戏状态（左）相反的动作），因为向左移动会导致 agent 移出屏幕并失败。然而，如 IG 和 MSX（右）所示，我们看到代理更喜欢 “向左推” 而不是 “向右推”，代理通过 MSX 来证明此操作的合理性，该 MSX 专注于在左侧保持摆杆垂直。这一理由表明，在这种危险情况下，相对与边界条件，agent 在摆杆角度上施加了过多的权重。agent 还没有了解左边界的重要性，说明需要在游戏地图的左侧进一步训练。可以推测，在训练期间，智能体并没有经常遇到类似的情况

6.3.3 Tug of War

在这里插入图片描述

图 4：Tug-of-War 17 特征 ESP-DQN 的样例解释。这里有两个决策点，每个点三张图（1）游戏状态；（2）首选动作和非首选动作的 Q 值和 GVF；（3）用于操作对的 IGX 和相应的 MSX。对于游戏 1，agent 首选动作是在上路 +4 陆战队、 +1 爆虫，而非首选动作是下路 +10 陆战队、+1 爆虫。对于第 2 场游戏，首选动作是下路 +1 爆虫，次优行动是下路 +2 陆战队、+4 爆虫（在论文里插这么大的图简直吐了…）

在图 4 中，我们给出了来自高性能 17 特征 ESP agent 的 2 个示例，一个符合人类感知，一个揭示了缺陷。
1. 第一个游戏状态中，ESP agent（蓝色玩家）的海洋建筑（marine buildings）太少，无法抵御不朽者单位的袭击。我们显示了排名最高的动作和次优动作的信息。最佳动作创建上路单位，而次优动作创建最大量下路单位。（上图）IGX 和 MSX 说明对偏好影响最大的 GVF 特征是 “不朽者对上路基地的伤害”，这与直觉一致，因为最佳行动试图保卫上路基地，而次优行动则没有这么做，次优动作的 GVF 显示，上路基地预计将受到敌人不朽者单位 80% 的伤害，而执行最佳动作时这一伤害接近 0
2. 在第二个游戏状态中，ESP agent 与一个没有经过针对性训练的对手进行比赛，并因底部基地被摧毁而输掉比赛。下路显示了大规模的敌人攻击，ESP agent 有足够的资源（1500 矿物），如果它采取正确的行动是可以防御的。但是 agent 最偏爱的操作仅在下路添加一个爆虫建筑，这会导致失败。为什么会犯这个错误？我们将首选动作与向下路添加更多建筑物的动作进行比较（这应该是首选）。IGX 和 MSX 表明动作偏好由 “使用爆虫在上路造成伤害” 相关的 GVF 特征主导。因此，agent 正在 “计划” 节省矿物以购买更多顶级爆虫建筑。IGX 表明 agent 确实了解次优动作将能够保护下路，然而，次优行动的这种好处被对上路的乐观情绪所超越。这种相对价值的误判导致 agent 输掉比赛。进一步分析，我们发现这种误判很可能是由于 ESP agent 在训练中从未因这种下路进攻而遭受损失

7. Summary

为了给 RL agent 生成有意义且合理的对比解释，我们引入了 ESP 模型。关键思想是根据对其行为的有意义的未来预测来构建代理的动作价值函数。这允许根据 agent 未来行为的增量来比较动作价值差异。为了保证语义性，我们要求 agent 设计者提供环境的语义特征，并在这些特征上学习 GVF。为了实现合理性，我们确保我们的解释以 well-defined 的方式（同时具有唯一性和确定性）与代理的偏好形式化地相关（formally related）。我们的案例研究提供了证据，表面 ESP 模型可以在非平凡的环境中学习，并且可以对代理的偏好给出有洞见的解释。未来工作的一个有趣方向是继续增强 GVF 的内部结构，以允许在不同粒度级别进行解释，这可能会借鉴 GVF 网络的想法（Schlegel 等，2018）