强化学习的学习之路（三十七）_2021-02-06： Actor Critic - Evaluation for value function

最新推荐文章于 2021-04-03 00:46:53 发布

Chou_pijiang

最新推荐文章于 2021-04-03 00:46:53 发布

阅读量156

点赞数

分类专栏：强化学习-基础知识文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109706

版权

强化学习-基础知识专栏收录该内容

60 篇文章 107 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Evaluation for value function

在上面我们讲到，我们需要去拟合V来构建Actor-Critic的结构，那么我们具体该怎么做呢？其实也就是我们前面讲到的用MC和TD方法，这里再简要介绍一下：

Monte Carlo

最直观的方法就是根据V的定义, 采用Monte Carlo的方法, 计算每个state到terminal state的 trajectory上会有多少reward, 经过无数条reward的平均之后得到V值:
$V^{\pi}\left(\mathbf{s}_{t}\right) \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t^{\prime}=t}^{T} r\left(\mathbf{s}_{t^{\prime}}, \mathbf{a}_{t^{\prime}}\right)$
在实际中引入无穷大条trajectory是不可能的, 所以这样也采用sampling替代expectation的方法进行替换, 这样虽然并不完美，但是在实际中也是适用的。
$V^{\pi}\left(\mathbf{s}_{t}\right) \approx \sum_{t^{\prime}=t}^{T} r\left(\mathbf{s}_{t^{\prime}}, \mathbf{a}_{t^{\prime}}\right)$
转化为监督学习，如果要利用神经网络来approximate $\mathrm{V},$ 则可以转化在如下数据集下：
$\text { training data: }\left\{(\mathbf{s}_{i, t}, \underbrace{\sum_{t^{\prime}=t}^{T} r\left(\mathbf{s}_{i, t^{\prime}}, \mathbf{a}_{i, t^{\prime}}\right)}_{y_{i, t}})\right\}$
给予如下的目标函数, 训练网络:
$\mathcal{L}(\phi)=\frac{1}{2} \sum_{i}\left\|\hat{V}_{\phi}^{\pi}\left(\mathbf{s}_{i}\right)-y_{i}\right\|^{2}$

Temporal difference

相对Monte Carlo方法直接使用整条轨迹来计算, Temporal difference引入了bootstrapped的方法。在前面target y是由整段轨迹的reward累积来确定的, 但是如果在V估计准确的情况下，
它其实也等于当前state采取某个action的reward加上下一个state的V值。这个也就是temporal difference方法降低采样需求的思路, 故而给予同样的目标函数下, target的值发生了改变：
$\text { training data: }\left\{(\mathbf{s}_{i, t}, \underbrace{r\left(\mathbf{s}_{i, t}, \mathbf{a}_{i, t}\right)+\hat{V}_{\phi}^{\pi}\left(\mathbf{s}_{i, t+1}\right)}_{y_{i, t}})\right\}$
这两种方法的对比其实非常像REINFORCE方法与Actor-Critic方法的对比。 MC方法使用了整条轨迹作为target, 它可以理解为是unbiased的，但是由于估计中存在policy与dynamic的随机性, 所以variance非常高。而TD则是引入了适当的bias, 大幅度减少了variance, 也提高了训练速度。

上一篇：强化学习的学习之路（三十六）_2021-02-05： Actor Critic - Reducing variance with critic
下一篇：强化学习的学习之路（三十八）_2021-02-07： Actor Critic - Discount factor

Chou_pijiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（三十七）_2021-02-06： Actor Critic - Evaluation for value function

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！Evaluation for value function
复制链接

扫一扫

专栏目录