强化学习的学习之路（二十五）_2021-01-25：Distributional DQN：Implicit Quantile Networks for Distributional RL

最新推荐文章于 2024-08-26 07:14:58 发布

Chou_pijiang

最新推荐文章于 2024-08-26 07:14:58 发布

阅读量729

点赞数 1

分类专栏：强化学习-基础知识文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109402

版权

强化学习-基础知识专栏收录该内容

60 篇文章 111 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

接下来的几个博客将会分享以下有关DQN算法及其改进，包括DQN（Nature）、Double DQN、 Multi-step DQN、Pirority Replay Buffer、 Dueling DQN、DQN from Demonstrations、Distributional DQN、Noisy DQN、Q-learning with continuous actions、Rainbow、Practical tips for DQN等。

我们在对比value-based和policy-based的方法的时候，都会提到说value-based的方法只能做出确定性的策略，而policy-based的方法可以做出动态的策略，这是因为我们用来评价每一个 $s, a$ 的信息只有 $Q (s, a)$ ,也就是 $\mathbb{E}[Z(s, a)],$ 连方差都没有, 自然也只能做出动态的策略。

而Risk-Sensitive强化学习指的是我们在针对相同的 $Z (s, a)$ 分布时, 根据不同的偏好, 应该做出不同的动作。我们把对待风险两种不同的态度成为risk-averse和risk-seeking, 接下来，我们用一种正式的数学语言来描述它们。描述这种偏好的公理被成为独立性，它有两个版本。

版本一
如果有两个随机变量 $X, Y$ , 我们相比 $Y$ 更偏好 $X$ , 写作 $\succ Y$ , 那么这代表对任何随机变量 $Z, X$ 和 $Z$ 的混合都优于 $Y$ 和 $Z$ 的混合, 这种 “优于" 表示为
$\alpha F_{X}+(1-\alpha) F_{Z} \geq \alpha F_{Y}+(1-\alpha) F_{Z}, \forall \alpha \in[0,1]$
在这种情况下，我们可以找到一个效用函数 $U$ 来描述这种偏好，那么策略可以表示为
$\pi(x)=\underset{a}{\arg \max } \underset{Z(x, a)}{\mathbb{E}}[U(z)]$
版本二

如果有两个随机变量 $X, Y$ , 我们相比 $Y$ 更偏好 $X$ , 写作 $\succ Y$ , 那么这代表对任何随机变量 $Z, X$ 和 $Z$ 的混合都优于 $Y$ 和 $Z$ 的混合, 这种 “优于" 表示为
$\alpha F_{X}^{-1}+(1-\alpha) F_{Z}^{-1} \geq \alpha F_{Y}^{-1}+(1-\alpha) F_{Z}^{-1}, \forall \alpha \in[0,1]$
在这种情况下，我们可以找到一个distortion risk measure $h$ 来描述这种偏好，那么策略可以表示为
$\pi(x)=\underset{a}{\arg \max } \int_{-\infty}^{\infty} z \frac{\partial}{\partial z}\left(h \circ F_{Z(x, a)}\right)(z) d z$

可以证明, 这两种表示是可逆的, 也就是哪个方便按哪个来。
举个例子, 在第一个版本中, 如果 $U (x) = x,$ 那么策略就会变成
$\pi(x)=\underset{a}{\arg \max } \underset{Z(x, a)}{\mathbb{E}}[z]=\underset{a}{\arg \max } Q(x, a)$
在第二个版本中, 如果 $h (x) = x ，$ 那么策略就会变成
$\begin{aligned} \pi(x) &=\underset{a}{\arg \max } \int_{-\infty}^{\infty} z \frac{\partial}{\partial z} F_{Z(x, a)}(z) d z \\ &=\underset{a}{\arg \max } \int_{-\infty}^{\infty} z P_{Z(x, a)}(z) d z \\ &=\underset{a}{\arg \max } \underset{Z(x, a)}{\mathbb{E}}[z] \\ &=\underset{a}{\arg \max } Q(x, a) \end{aligned}$
不难证明, $\int_{0}^{1} F_{Z}^{-1}(\tau) d \beta(\tau)=\int_{-\infty}^{\infty} z \frac{\partial}{\partial z}\left(\beta \circ F_{Z}\right)(z) d z$
$\begin{array}{l} \text { 令 } z=F_{Z}^{-1}(\tau) \\ \int_{0}^{1} F_{Z}^{-1}(\tau) d \beta(\tau) \stackrel{z=F_{Z}^{-1}(\tau)}{=} \int_{-\infty}^{\infty} z d \beta\left(F_{Z}(z)\right) \\ =\int_{-\infty}^{\infty} z \frac{\partial}{\partial z}\left(\beta \circ F_{Z}\right)(z) d z \end{array}$
其中 $\beta$ 是一个 $\rightarrow[0,1],$ 被称为distortion risk measure, 我们定义基于 $\beta$ 的 distorted expectation
$Q_{\beta}(x, a):=\underset{\tau \sim U([0,1])}{\mathbb{E}}\left[Z_{\beta(\tau)}(x, a)\right.$
其中 $Z_{\tau}:=F_{Z}^{-1}(\tau),$ 显然
$Q_{\beta}(x, a):=\underset{\tau \sim U([0,1])}{\mathbb{E}}\left[Z_{\beta(\tau)}(x, a)\right]=\int_{0}^{1} F_{Z}^{-1}(\tau) d \beta(\tau)$
这就把 $Q_{\beta}(x, a)$ 和前面的风险偏好联系起来了。
最后，策略可以表示为：
$\begin{aligned} \pi_{\beta}(x) &=\underset{a \in \mathcal{A}}{\arg \max } \int_{-\infty}^{\infty} z \frac{\partial}{\partial z}\left(\beta \circ F_{Z}\right)(z) d z \\ &=\underset{a \in \mathcal{A}}{\arg \max } \int_{0}^{1} F_{Z}^{-1}(\tau) d \beta(\tau) \\ &=\underset{a \in \mathcal{A}}{\arg \max }_{\tau \sim U([0,1])}\left[Z_{\beta(\tau)}(x, a)\right] \\ &=\underset{a \in \mathcal{A}}{\arg \max } Q_{\beta}(x, a) \end{aligned}$
接下来再让我们看看不同的 $\beta$ 就起到什么不同的效果。
整理而言，当 $\beta$ 为凸函数时，偏好是risk-averse的，当 $\beta$ 为凹函数时，偏好是risk-seeking 的。
有一些现成的函数可以作为 $\beta$

CPW函数：
$\operatorname{CPW}(\eta, \tau)=\frac{\tau^{\eta}}{\left(\tau^{\eta}+(1-\tau)^{\eta}\right)^{\frac{1}{\eta}}}$
Wang函数：

(其中 $\Phi$ 是标准正态分布的CDF函数)
$\operatorname{Wang}(\eta, \tau)=\Phi\left(\Phi^{-1}(\tau)+\eta\right)$
Pow函数：
$\operatorname{Pow}(\eta, \tau)=\left\{\begin{array}{ll}\tau^{\frac{1}{1+|\eta|}}, & \text { if } \eta \geq 0 \\ 1-(1-\tau)^{\frac{1}{1+|\eta|}}, & \text { otherwise }\end{array}\right.$
conditional value-at-risk函数：
$\mathrm{CVaR}(\eta, \tau)=\eta \tau$

这些函数的 $\eta$ 都可以看作是超参数, 而 $\tau$ 则是自变量, 例如 $\beta(\tau)=\operatorname{Wang}(.75, \tau)$

下面是有关这些函数的图像
在这里插入图片描述

第二列的Neutral是原始的 $Z (s, a)$ 的分布, 而其他列的图像都是经过加工后的 $Z_{\beta}(s, a)$ 的图像。
可以看到, 这些不同的 $\beta$ 有些对风险比较积极, 例如 $\operatorname{Wang}(.75)$ , 而有些则很保守, 只集中在原分布中值比较大的部分，例如 $\mathrm{CPW}(.71)$ 。
最后，让我们步入正题, 看看IQN是怎么训练的。
下面的图很好的描绘来DQN, C51，QR-DQN和IQN的区别。

在这里插入图片描述

C51, QR-DQN和IQN都是想去学习一个分布, 但是它们的方式并不一样：

C51和QR-DQN是去找到了一种间接的方式去表示这个分布，也就是用atoms的方式。
而IQN更像是直接的学出了这个分布。

IQN的输入和输出是什么呢?
它是输入是状态 $s,$ 和采样 $\tau \sim U[0,1],$ 而输出和DQN很像, 是一个 $|\mathcal{A}|$ 维的向量。
区别在于, DQN只能输出每个动作的期望, 而IQN可以根据输入的 $\tau$ , 输出每个动作的 $\tau$ 分位数。
这样看来, IQN和C51，QR-DQN的不同之处在于，它不在想办法表示这个分布，它直接就是这个分布!
那这个前面提到的Risk-Sensitive强化学习有什么关系呢?
试想，如果我们可以学习出 $Z_{\tau}(x, a)$ , 那么不就可以计算出对于任何 $\beta$ 的 $Q_{\beta}(x, a)$ 了吗? 这样我们就可以在作出决定的时候根据我们的偏好，而不是只能根据期望 $Q (x, a)$ 去计算。

这个网络怎么训练呢?

首先还是从Buffer中拿到采样 $\left(s, a, r, s^{\prime}\right)$ 。

接下来我们要根据 $s^{\prime}$ 选出最好的动作 $a^{*}$ 。

但是, 这里我们不再用 $Z (x, a)$ 算出 $Q (x, a)$ 选择了，而是应该加入偏好 $\beta,$ 当然, 如果没有特殊的偏好, 令 $\beta(x)=x$ 即可。

我们需要事先设定一个超参数 $K$ , 用来决定计算 $Q_{\beta}(x, a)$ 的采样次数, 于是

$Q_{\beta}\left(x^{\prime}, a^{\prime}\right)=\frac{1}{K} \sum_{k}^{K} Z_{\tilde{\tau}_{k}}\left(x^{\prime}, a^{\prime}\right)$
其中

$\tilde{\tau}_{k} \sim \beta(\cdot)$
于是

$a^{*} \leftarrow \arg \max _{a^{\prime}} \frac{1}{K} \sum_{k}^{K} Z_{\tilde{\tau}_{k}}\left(x^{\prime}, a^{\prime}\right), \quad \tilde{\tau}_{k} \sim \beta(\cdot)$
接下来我们要缩短 $Z (x, a)$ 和 $r+\gamma Z\left(x^{\prime}, a^{*}\right)$ 这两个分布之间的距离。

但是我们现在没有某种表示去表示这个分布了，我们的网络就是分布本身。
因此我们需要从网络中采样，来估计这两个分布。我们又引入两个超参数 $N^{\prime},$ 分别代表估计这两个分布所需要的采样次数，于是有
$\tau_{i}, \tau_{j}^{\prime} \sim U([0,1]), \quad 1 \leq i \leq N, 1 \leq j \leq N^{\prime}$
对于两个单独的 $\tau_{i}, \tau_{j}^{\prime},$ 它们之间的差表示为
$\delta_{t}^{\tau_{i}, \tau_{j}^{\prime}}=r_{t}+\gamma Z_{\tau_{j}^{\prime}}\left(x_{t+1}, \pi_{\beta}\left(x_{t+1}\right)\right)-Z_{\tau_{i}}\left(x_{t}, a_{t}\right)$
那么总的差值就是
$\mathcal{L}\left(x_{t}, a_{t}, r_{t}, x_{t+1}\right)=\frac{1}{N^{\prime}} \sum_{i=1}^{N} \sum_{j=1}^{N^{\prime}} \rho_{\tau_{i}}^{\kappa}\left(\delta_{t}^{\tau_{i}, \tau_{j}^{\prime}}\right)$
我们没有用 $\left(\delta_{t}^{\tau_{i}, \tau_{j}^{\prime}}\right)^{2}$ 而是用 $\left|\delta_{t}^{\tau_{i}, \tau_{j}^{\prime}}\right|$ 这是因为我们本质上还是在做分位数回归, 而不是标准的回归。
最后, $\quad \rho_{\tau_{i}}^{\kappa}$ 表示的是绝对值函数的软化, 我们在上一篇博客中提到过：