强化学习的学习之路(三十)_2021-01-30: Policy Optimazation 简介

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

Policy Optimazation

先说一个我觉得很好的观点,可以把策略梯度法看成一个加权了的最大似然估计法,加的这个权重是轨迹得到的回报,也就是说,我们不是希望学出来的策略和采样得到的轨迹的概率分布接近,而是我们希望最大化那些回报大的轨迹出现的概率,也就是希望策略去实施得到的轨迹尽可能能获得大的回报。

定义

与基于价值的策略不同,基于策略的优化不再去求价值函数,而是直接去算策略参数的梯度去进行优化。也就是说输入是比如前面说的游戏的图片,输出的直接就是每个动作的概率。

在这里插入图片描述

Valued-based和Policy-based RL对比
  • Value-based RL
    • to learn value function 去学价值函数
    • implicit policy based on the value function 通过价值函数隐含地学出策略
  • Policy-based RL
    • no value function 没有价值函数
    • to learn policy directly 直接去学策略
  • Actor-critic
    • to learn both policy and value function 即学价值函数,也学策略
      在这里插入图片描述
Advantages of Policy-based RL
  • Advantages:
    • better convergence properties: we are guaranteed to converge on a local optimum (worst case) or global optimum (best case) 更好的收敛性,保证起码收敛到一个局部最优点
    • Policy gradient is more effective in high-dimensional action space 在高维空间中更有效
    • Policy gradient can learn stochastic policies, while value function can’t 基于策略的方法可以学出随机策略,而基于值的方法不行
  • Disadvantages:
    • typically converges to a local optimum 总是收敛到局部最优点
    • evaluating a policy has high variance 评估策略的时候总是方差很大
Policy Optimazation的方法
  • Policy-based RL is an optimization problem that find θ \theta θ that maximizes J ( θ ) J(\theta) J(θ)
  • If J ( θ ) J(\theta) J(θ) is differentiable, we can use gradient-based methods: 如果目标函数是可导的,那我们就可以用基于梯度的方式去求解基于策略的强化学习方法
    • gradient ascend
    • conjugate gradient
    • quasi-newton
  • If J ( θ ) J(\theta) J(θ) is non-differentiable or hard to compute the derivative, some derivative-free black-box optimization methods:
    • Cross-entropy method (CEM)
    • Hill climbing
    • Evolution algorithm
    Cross-Entropy Method

在这里插入图片描述

类似于采样枚举????

Approximate Gradients by Finite Difference

在这里插入图片描述

相当于间接地去求了微分。

上一篇:强化学习的学习之路(二十九)_2021-01-29:Practical tips for DQN
下一篇:强化学习的学习之路(三十一)_2021-01-31: REINFORCE

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值