强化学习的学习之路（二十四）_2021-01-24：Distributional DQN：Distributional RL with Quantile Regression

最新推荐文章于 2024-08-25 09:28:17 发布

Metasurface_AI_

最新推荐文章于 2024-08-25 09:28:17 发布

阅读量1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：强化学习-基础知识文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109378

强化学习-基础知识专栏收录该内容

60 篇文章

订阅专栏

博主分享强化学习学习历程，后续将更新基础知识和论文阅读专栏。接下来几个博客会介绍DQN算法及其改进。本文重点介绍Distributional DQN，引入Wasserstein距离概念，阐述QR - DQN算法，包括分布表现形式改变、分位数学习及训练过程，展示了算法效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

接下来的几个博客将会分享以下有关DQN算法及其改进，包括DQN（Nature）、Double DQN、 Multi-step DQN、Pirority Replay Buffer、 Dueling DQN、DQN from Demonstrations、Distributional DQN、Noisy DQN、Q-learning with continuous actions、Rainbow、Practical tips for DQN等。

istributional DQN：Distributional Reinforcement Learning with Quantile Regression

首先我们来介绍一个数学概念,：Wasserstein距离。
Wasserstein距离度量两个概率分布之间的距离, $\quad$ (狭义的) 定义如下：
$Q)=\min _{\gamma \in \Pi} \sum_{x_{p}, x_{q}} \gamma\left(x_{p}, x_{q}\right)\left\|x_{p}-x_{q}\right\|$
直接看这个式子可能过于抽象了，因为它和我们熟悉的度量不一样, 它好像不是确定性的，而是带有一个 $\min$ 。
这里的Wasserstein距离又叫推土机距离，看下面的图，你就能很形象地理解Wasserstein距离：

在这里插入图片描述

它的意思是, 将一个分布转变为另一个分布，所需要移动的最少的“土" 的量。
注意，因为是分布，概率的和为1，也就是说 “土" 的总量是相同的。同时，这个移动的量是指 “土” 的“距离*数量" 。
可以看到，又很多种移动的方案, 而Wasserstein距离指的是最少的那种，当然可能有多个方案都是最少, 但是这不重要, 重要的是移动的值。

然而上述的定义只算是一个特例，标准的Wasserstein Metric的定义更为复杂, 如果我有两个分布 $U, Y$ , 那么它们的p-Wasserstein Metric为
$W_{p}(U, Y)=\left(\int_{0}^{1}\left|F_{Y}^{-1}(\omega)-F_{U}^{-1}(\omega)\right|^{p} d \omega\right)^{1 / p}$
其中
$F_{Y}^{-1}(\omega):=\inf \left\{y \in \mathbb{R}: \omega \leq F_{Y}(y)\right\}$
$F_{Y}(y)=\operatorname{Pr}(Y \leq y)$
当 $p = 1$ 的时候, 上面的公式就退化成为我们最开始看到的推土机距离。
当 $p = 1$ 的时候这个式子还是容易理解的, 这里的 $F_{Y}(y)$ 就是 $y$ 的CDF函数, 而 $F_{Y}^{-1}(\omega)$ 可以理解为计算 $P_{Y}$ 的 $w$ 分位数。
而 $W_{p}(U, Y)$ 的表达式, 则是将这个代表分位数的 $w$ 从 0 到 1 积分。

下图形象的描述了p=1情况下的Wasserstein Metric，这不过这个定义是连续的，刚才的定义是离散的。

在这里插入图片描述

上图中红色和蓝色的线分别是 $P_{X}$ 和 $P_{Y}$ 的CDF函数，对于某一个分位数 $\tau$ , 我们可以计算得到两个值, 分别是 $F_{X}^{-1}(\tau)$ 和 $F_{Y}^{-1}(\tau)$ 。
它们的差值的绝对值就是上图中黑线的长度，这个长度积分就是青色部分的面积, 这就代表了两个分布的差异。

我们在上一篇博客中提到一开始作者们并没有想到合适的方法模拟 Wasserstein Metric这个过程, 于是提出了使用KL散度做近似的想法。紧接着作者们又提出了更 “正统” 的算法QR-DQN，它继承了最开始的理论想法。首先，我们要做的是改变 “分布” 的表现形式：
$Z (x, a)$ 是 $\mathcal{X} \times \mathcal{A} \rightarrow \mathscr{P}(\mathbb{R})$ 的函数, 它的输出是一个分布 $\mathscr{P}(\mathbb{R})$

我们一开始是用 $N$ 个atoms $\left\{z_{0}, z_{1}, \cdots, z_{N-1}\right\}$ 作为基准，再用 $N$ 个离散的分布 $\left\{p_{0}, p_{1}, \cdots, p_{N-1}\right\}$ 来描述这个分布。这种形式用来计算KL散度是极好的，但是不适合计算Wasserstein Metric度量，现在我们介绍另外一种，是用分位数描述的方法。其实也很直觉，就是按照这个分布的CDF的 $y$ 轴, 把它均等的分成 $N$ 分, 例如下面的是分布的 PDF的 $y$ 轴, 我们把它分成10等分：

在这里插入图片描述

那么自然就会得到10个 $\hat{\tau},$ 这10个 $\hat{\tau}$ 就定义了10个分位数
$\hat{\tau}_{i}=\frac{2(i-1)+1}{2 N}, \quad i=1, \ldots, N$
分位数是下图的小红点：

在这里插入图片描述

于是，我们现在只需要记录 $N$ 个分位数的位置, 就可以描述整个分布了。
接下来，我们解决如何去学习出这 $N$ 个分位数这个问题：
我们设计一个神经网络 $Z$ ，它的输入是状态 $s,$ 输出是一个矩阵, 矩阵的每一行代表一个动作的 $N$ 个概率, 分别是 $\left\{p_{0}, p_{1}, \cdots, p_{N-1}\right\}$ 。

在QR-DQN中，神经网络也是输出一个矩阵, 只不过每列不再是atoms对应的 $p_{i}$ 了，而是atoms的位置, 也就是 $z_{i},$ 因为在QR-DQN中atoms的概率是确定的, 都是 $\frac{1}{N} $。现在让我们看一下训练的过程。
首先我们从Buffer中采样出 $\left(s, a, r, s^{\prime}\right),$ 接下来我们需要计算出 $a^{*},$ 和上一篇博客的想法一样, 我们依旧用 $Q (s, a)$ 来计算。
先算 $Q\left(s^{\prime}, a^{\prime}\right)：$ $Q\left(s^{\prime}, a^{\prime}\right):=\sum_{j} q_{j} \theta_{j}\left(x^{\prime}, a^{\prime}\right)$
挑出最大的作为 $a^{*}$ ： $a^{*} \leftarrow \arg \max _{a^{\prime}} Q\left(x, a^{\prime}\right)$
根据这个 $a^{*}$ 计算出分布 $Z\left(s^{\prime}, a^{*}\right)$ , 我们设这个分布的atoms的位置表示为 $\left\{\theta_{0}^{\prime}, \theta_{1}^{\prime}, \ldots, \theta_{N-1}^{\prime}\right\}$

那么目标分布表示为： $\mathcal{T} \theta_{j}^{\prime}=r+\gamma \theta_{j}^{\prime}, \quad i=0, \ldots, N-1$
这里的好处是不用再对齐了，因为我们的atoms的位置是可以改变的，而正是用这个变量来描述整个分布, 自然没有对齐之说。
最关键的是，我们要让分布 $Z (s, a)$ 和目标分布 $r+\gamma Z\left(s^{\prime}, a^{*}\right)$ 尽可能相似。
我们假设用 $\left\{\theta_{0}, \theta_{1}, \ldots, \theta_{N-1}\right\}$ 来描述分布 $Z (s, a),$ 这其实就是 $N$ 个分位数。
那么描述目标分布的 $\left\{r+\gamma \theta_{0}^{\prime}, r+\gamma \theta_{1}^{\prime}, \cdots, r+\gamma \theta_{N-1}^{\prime}\right\}$ 就可以当作ground truth, 也就是把他们看作 $L_{\tau}=\mathbb{E}\left[\rho_{\tau}^{1}\left(y_{i}-\xi\left(x_{i}, \beta_{\tau}\right)\right)\right]$ 中不同的 $y_{i}$ 。此外，我们并不是只有一个 $\tau$ , 我们有 $N$ 个 $\tau$ , 我们需要计算它们的损失函数的和, 也就是
$\begin{aligned} L_{\beta} &=\sum_{i=1}^{N} \mathbb{E}_{Y}\left[\rho_{\tau_{i}}^{1}\left(Y-\xi(\beta)_{i}\right)\right] \\ &=\sum_{i=1}^{N} \mathbb{E}_{\mathcal{T} Z^{\prime}}\left[\rho_{\hat{\tau}_{i}}^{1}\left(\mathcal{T} Z^{\prime}-\theta_{i}\right)\right] \\ &=\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{N}\left[\rho_{\hat{\tau}_{i}}^{1}\left(\mathcal{T} \theta_{j}^{\prime}-\theta_{i}\right)\right] \end{aligned}$
其中
$\mathcal{T} Z^{\prime}=r+\gamma Z\left(x^{\prime}, a^{*}\right)$
而 $\hat{\tau}_{i}$ 就是用来决定 $N$ 个分位数的值
$\hat{\tau}_{i}=\frac{2 i+1}{2 N}, \quad i=0, \ldots, N-1$
最终的算法如下：