强化学习的学习之路（三十）_2021-01-30： Policy Optimazation 简介

最新推荐文章于 2021-04-05 22:07:36 发布

Chou_pijiang

最新推荐文章于 2021-04-05 22:07:36 发布

阅读量330

点赞数

分类专栏：强化学习-基础知识文章标签：机器学习深度学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109642

版权

强化学习-基础知识专栏收录该内容

60 篇文章 110 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Policy Optimazation

先说一个我觉得很好的观点，可以把策略梯度法看成一个加权了的最大似然估计法，加的这个权重是轨迹得到的回报，也就是说，我们不是希望学出来的策略和采样得到的轨迹的概率分布接近，而是我们希望最大化那些回报大的轨迹出现的概率，也就是希望策略去实施得到的轨迹尽可能能获得大的回报。

定义

与基于价值的策略不同，基于策略的优化不再去求价值函数，而是直接去算策略参数的梯度去进行优化。也就是说输入是比如前面说的游戏的图片，输出的直接就是每个动作的概率。

在这里插入图片描述

Valued-based和Policy-based RL对比

Value-based RL
- to learn value function 去学价值函数
- implicit policy based on the value function 通过价值函数隐含地学出策略
Policy-based RL
- no value function 没有价值函数
- to learn policy directly 直接去学策略
Actor-critic
- to learn both policy and value function 即学价值函数，也学策略

Advantages of Policy-based RL

Advantages:
- better convergence properties: we are guaranteed to converge on a local optimum (worst case) or global optimum (best case) 更好的收敛性，保证起码收敛到一个局部最优点
- Policy gradient is more effective in high-dimensional action space 在高维空间中更有效
- Policy gradient can learn stochastic policies, while value function can’t 基于策略的方法可以学出随机策略，而基于值的方法不行
Disadvantages:
- typically converges to a local optimum 总是收敛到局部最优点
- evaluating a policy has high variance 评估策略的时候总是方差很大

Policy Optimazation的方法

Policy-based RL is an optimization problem that find $\theta$ that maximizes $J(\theta)$
If $J(\theta)$ is differentiable, we can use gradient-based methods: 如果目标函数是可导的，那我们就可以用基于梯度的方式去求解基于策略的强化学习方法
- gradient ascend
- conjugate gradient
- quasi-newton
If $J(\theta)$ is non-differentiable or hard to compute the derivative, some derivative-free black-box optimization methods:
- Cross-entropy method (CEM)
- Hill climbing
- Evolution algorithm
Cross-Entropy Method

在这里插入图片描述

类似于采样枚举？？？？

Approximate Gradients by Finite Difference

在这里插入图片描述

相当于间接地去求了微分。

上一篇：强化学习的学习之路（二十九）_2021-01-29：Practical tips for DQN
下一篇：强化学习的学习之路（三十一）_2021-01-31： REINFORCE

Chou_pijiang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（三十）_2021-01-30： Policy Optimazation 简介

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！Policy Optimazation先说一个我觉得很好的
复制链接

扫一扫