强化学习的学习之路（二十六）_2021-01-26： Noisy DQN

最新推荐文章于 2024-01-02 23:26:26 发布

Chou_pijiang

最新推荐文章于 2024-01-02 23:26:26 发布

阅读量696

点赞数 2

分类专栏：强化学习-基础知识文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109624

版权

强化学习-基础知识专栏收录该内容

60 篇文章 107 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

接下来的几个博客将会分享以下有关DQN算法及其改进，包括DQN（Nature）、Double DQN、 Multi-step DQN、Pirority Replay Buffer、 Dueling DQN、DQN from Demonstrations、Distributional DQN、Noisy DQN、Q-learning with continuous actions、Rainbow、Practical tips for DQN等。

增强探索能力是强化学习中经常遇到的问题，在前面我们曾接触过 $\epsilon-$ greedy 的方法，这个算法中以一定的概率 $\epsilon$ 随机执行行动，而在剩下的 $1-\epsilon$ 中执行最优行动，这相当于在执行策略的环节增加一定的噪声，使得模型具备一定的探索能力

我们现在介绍另一种增强探索能力的方法: Noisy Network，来自论文 Noisy Networks for Exploration。不同于 $\epsilon$ -greedy 的方法，它使用了一种更平滑的手段增加探索能力。那么，算法是如何实现想要的效果的呢?我们以一个简单的函数为例，来看看它的
效果。这个函数的形式为
$y = w x + b$
其中 $x$ 表示输人、y 表示输出， $w$ 和 $b$ 是函数的参数。也就是说，如果输人是 $x,$ 那么经过函数的变换，输出的结果就会变成 $y_{\circ}$ 这样，我们就可以使用这个函数表示自然界中一组 $x$ 和 $y$ 的关系。当然，自然界中存在着一定的噪声，我们无法直接使用这个函数进行表示，于是给函数加一个噪声项，于是函数变为
$x+b+\epsilon$
其中 $\epsilon$ 服从均值为 0 , 方差为 $\sigma^{2}$ 的高斯分布
$\epsilon \sim N\left(0, \sigma^{2}\right)$
$\sigma$ 是一个固定值，表示噪声带来的方差。这样我们也可以认为 $y$ 服火如下的高斯分布：
$\sim N\left(w x+b, \sigma^{2}\right)$
可以看出由于噪声的存在，我们可以从同一个 $x$ 映射到多个 $y$ , 这相当于增加了输出的不确定性。不确定性对于探索来说十分重要，由于不确定性的存在，我们可以选择确定行动之外的其他行动，因此我们发现噪声和探索存在某些类似的特性，我们可以利用噪声增加模型的探索能力。
一种添加噪声的方法是在参数上增加噪声。对于上面函数中的参数 $w$ , 我们可以定义参数来自均值为 $\mu_{w},$ 方差为 $\sigma_{w}$ 的高斯分布。同理，参数 $b$ 服从均值为 $\mu_{b},$ 方差为 $\sigma_{b}$ 的高斯分布，这样函数就变成了下面的形式:
$\begin{array}{l} \tilde{w} \sim N\left(\mu_{w}, \sigma_{w}\right) \\ \tilde{b} \sim N\left(\mu_{b}, \sigma_{b}\right) \\ y=\tilde{w} x+\tilde{b} \end{array}$
这个形式理解起来并不难，前向计算也并不困难，但是反向计算却有点困难，如何将得到的反向梯度传递到高斯分布中的分布参数呢?为了简化计算，我们需要将参数的表现形式做一定的变换，变成固定部分和随机部分的和，形式如下所示：
$\begin{array}{l} \tilde{w}=\mu_{w}+\sigma_{w} \epsilon \\ \tilde{b}=\mu_{b}+\sigma_{b} \epsilon \end{array}$

$\begin{array}{l} \tilde{w}=\mu_{w}+\sigma_{w} \epsilon \\ \tilde{b}=\mu_{b}+\sigma_{b} \epsilon \end{array}$

$\epsilon$ 代表参数中的随机部分，它不属于参数, 服从确定的统计分布，例如均值为 $0,$ 方差为 1 的高斯分布 $N (0, 1)$ 。在完成采样后，它可以被当成一个常量对待，这样另外两个参数就可以使用前向后向计算优化了。当然，上面这种方法也只是为模型添加噪声的方法之一，如果利用这种方法增加噪声，那么如果函数原本有 $N$ 个参数，为了实现噪声的效果，我们需要把参数数量增加一倍，对于小型网络来说，使用这样的方法添加噪声是可行的，但对较大的网络来说，增加一倍的网络参数会给计算带来不小的负担。
为了减少噪声参数的数量，我们还可以从函数参数的结构入手。在我们熟悉的全连接运算中，参数 $w$ 一般是一个二维的矩阵，假设它的维度为 $\times q,$ 那么我们可以只生成 $p + q$ 个噪声参数，**也就是把对每个权重加噪声换成对每个神经元加噪声，**于是对于上述函数中每一个参数，可以用下面这种全新的形式表示:
$\boldsymbol{w}_{i, j}=\mu_{w}[i, j]+f\left(\sigma_{p}[i]\right) f\left(\sigma_{q}[j]\right) \epsilon$

$b_{j}=\mu_{b}[j]+f\left(\sigma_{q}[j]\right) \epsilon$

其中参数数值的第一项保持不变，后面一项的表示有些变化。我们将添加的 $p + q$ 个参数分成两部分，一部分的维度为 $\sigma_{p}[i]$ 表示其中的第 $i$ 个噪声参数; 另一部分的维度为 $\sigma_{q}[j]$ 表示其中第 $j$ 个噪声参数。这里的 $f(x)=\operatorname{sgn}(x) \sqrt{x}$ 样的设定，我们在噪声效果和噪声参数数量两方面得到了很好的平衡。对于更复杂的模型，我们也可以采用类似的方法添加噪声参数来实现对噪声信息的拟合。

完成了对添加噪声基本思想的介绍，下面就来介绍这个噪声的参数如何融入我们已经介绍的 DQN 算法，我们知道基于 Target Network 的 DQN 算法的目标函数公式为
$L(\theta)=E_{\left(s_{t}, a_{t}, \boldsymbol{r}_{t}, \boldsymbol{s}_{t+1}\right) \sim D}\left[\boldsymbol{r}_{t}+\gamma \max _{\boldsymbol{a} * \in \boldsymbol{A}} Q\left(\boldsymbol{s}_{t+1}, \boldsymbol{a}^{*} ; \theta^{-}\right)-Q\left(s_{t}, \boldsymbol{a}_{t} ; \theta\right)\right]^{2}$
其中 $\theta$ 表示 Behavior Network 的模型参数, $\theta^{-}$ 表示 Target Network 的模型参数。我们可以在值函数中加人一定的噪声，由于噪声会影响最终的价值输出，也会影响最终的行动，于是噪声的大小影响了模型的探索特性，噪声越小表示探索能力越小，噪声越大表示探索能力越大。我们可以为两个模型参数分别加入噪声随机变量 $\epsilon$ 和 $\epsilon^{-},$ 以及噪声参数 $\sigma$ 和 $\sigma^{-},$ 此时新的目标函数变为：
$\begin{aligned} L(\theta)=& E_{\epsilon^{-}, \epsilon}\left[E_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{r}_{t}, \boldsymbol{s}_{t+1}\right) \sim D}\left[\boldsymbol{r}_{t}+\gamma \max _{\boldsymbol{a} * \in \boldsymbol{A}} Q\left(\boldsymbol{s}_{t+1}, \boldsymbol{a}^{*}, \epsilon^{-} ; \theta^{-}, \sigma^{-}\right)\right.\right.\\ &\left.\left.-Q\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \epsilon ; \theta, \sigma\right)\right]^{2}\right] \end{aligned}$
在原本的目标函数中噪声项并不存在，因此此时噪声的加入使得目标函数产生了偏差。为了消除这个偏差，我们可以对噪声求期望，由于噪声的期望值为 $0,$ 求解期望后目标函数不再有偏，但是模型依然拥有一定的探索能力。

最后，由于噪声的引人，我们需要考虑噪声参数的初始化。根据论文中的介绍，噪声参数为 $p + q$ 个时，令 $\times q,$ 参数 $\mu$ 按照范围为 $\left[\frac{1}{\sqrt{N}},+\frac{1}{\sqrt{N}}\right]$ 的均匀分布进行初始化，参数 $\sigma$ 将初始化为常量 $\frac{0.4}{\sqrt{N}} $

算法最终的结构如下：

在这里插入图片描述

结果如下图所示：

在这里插入图片描述
上一篇：强化学习的学习之路（二十五）_2021-01-25：Distributional DQN：Implicit Quantile Networks for Distributional RL
下一篇：强化学习的学习之路（二十七）_2021-01-27：Q-learning with continuous actions

Chou_pijiang

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
强化学习的学习之路（二十六）_2021-01-26： Noisy DQN

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！接下来的几个博客将会分享以下有关DQN算法及其改进，包括DQ
复制链接

扫一扫

专栏目录