强化学习的学习之路（四十）_2021-02-09： Actor Critic -Critics as baselines

最新推荐文章于 2024-03-30 19:27:12 发布

Chou_pijiang

最新推荐文章于 2024-03-30 19:27:12 发布

阅读量170

点赞数

分类专栏：强化学习-基础知识文章标签：人工智能机器学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109719

版权

强化学习-基础知识专栏收录该内容

60 篇文章 107 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Critics as baselines

前面提到的Actor-Critic方法和Policy Gradient方法各有优劣：Actor-Critic方法方差小但是有偏，Policy-Gradient无偏但是方差大：

那我们就会有有一个想法是说能不能把这两种方法结合起来，形成类似下面的这种形式，在引入value function降低variance的情况下保持unbiased：

传统的Advantage函数如下：

$A^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=Q^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-V^{\pi}\left(\mathbf{s}_{t}\right)$

如果我们用MC的方法来估计Q函数，这个估计是unbiased的，但是由于是single-sample estimate，故而variance比较高：

$\hat{A}^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=\sum_{t^{\prime}=t}^{\infty} \gamma^{t^{\prime}-t} r\left(\mathbf{s}_{t^{\prime}}, \mathbf{a}_{t^{\prime}}\right)-V_{\phi}^{\pi}\left(\mathbf{s}_{t}\right)$

我们再换成下面这种形式：如果critic是正确的时候, 它的期望应该是零,。
$\hat{A}^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=\sum_{t^{\prime}=t}^{\infty} \gamma^{t^{\prime}-t} r\left(\mathbf{s}_{t^{\prime}}, \mathbf{a}_{t^{\prime}}\right)-Q_{\phi}^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)$
留意到上面一个奏出来的式子相对而言是少了一个bias项, 那么我们是否可以将它补充回来呢? 这个也就是Q-Prop的思路了，他的第二项就是这么一个目的：
$\nabla_{\theta} J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \nabla_{\theta} \log \pi_{\theta}\left(\mathbf{a}_{i, t} \mid \mathbf{s}_{i, t}\right)\left(\hat{Q}_{i, t}-Q_{\phi}^{\pi}\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right)\right)+\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \nabla_{\theta} E_{\mathbf{a} \sim \pi_{\theta}\left(\mathbf{a}_{t} \mid s_{i, t}\right)}\left[Q_{\phi}^{\pi}\left(\mathbf{s}_{i, t}, \mathbf{a}_{t}\right)\right]$
接下来我们再引入n-step的形式：

我们发现上面的两种形式刚好是两个极端，前者使用了整条trajectory，后者仅仅使用了一个step，那么是否可以有个折中，从而达到base/variance的tradeoff？

于是我们就得到了下面这种n-step的形式：

$\hat{A}_{n}^{\pi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=\sum_{t^{\prime}=t}^{t+n} \gamma^{t^{\prime}-t} r\left(\mathbf{s}_{t^{\prime}}, \mathbf{a}_{t^{\prime}}\right)-\hat{V}_{\phi}^{\pi}\left(\mathbf{s}_{t}\right)+\gamma^{n} \hat{V}_{\phi}^{\pi}\left(\mathbf{s}_{t+n}\right)$

上一篇：强化学习的学习之路（三十九）_2021-02-08： Actor Critic -Design Decisions
下一篇：强化学习的学习之路（四十一）2021-02-10 Problems in Policy Gradient

Chou_pijiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（四十）_2021-02-09： Actor Critic -Critics as baselines

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！Critics as baselines前面提到的Acto
复制链接

扫一扫

专栏目录