强化学习的学习之路(五十三)2021-02-22 DPG

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

DPG

DPG(Deterministic Policy Gradient)来自David Silver在ICML2014年发表的论文Deterministic Policy Gradient Algorithms。这个论文的很大一个贡献在于在这个论文之前大家都觉得环境模型无关的确定性策略是不存在的,而David Silver等通过严密的数学推导证明了DPG的存在。根据DPG论文的证明,当概率策略的方差趋近于0的时候,就是确定性策略

确定性策略:在状态St时,每次采取的动作都是一个确定的action, a = μ ( s ) a=\mu(s) a=μ(s);
随机策略:在状态St时,每次采取的动作很可能不一样, 随机选择动作, π ( a ∣ s ) = P ( a ∣ s ) \pi(a \mid s)=P(a \mid s) π(as)=P(as)

DPG的学习框架采用AC的方法, DPG求解时少了重要性权重,这是因为重要性采样是用简单的概率分布去估计复杂的概率分布,DPG的action是确定值而不是概率分布。另外DPG的值函数评估用的是Q-learning的方法, 即用TD error来估计动作值函数并忽略重要性权重。确定性策略 AC方法的梯度公式和随机策略的梯度公式如下图所示。跟随机策略梯度相比,确定性策略少了对action的积分, 多了reward对action的导数。

Stochastic Policy Gradient:
∇ θ J ( π θ ) = E s ∼ ρ π , a ∼ π θ [ ∇ θ log ⁡ π θ ( a ∣ s ) Q π ( s , a ) ] \nabla_{\theta} J\left(\pi_{\theta}\right)=E_{s \sim \rho^{\pi}, a \sim \pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(a \mid s) Q^{\pi}(s, a)\right] θJ(πθ)=Esρπ,aπθ[θlogπθ(as)Qπ(s,a)]
DPG:

∇ θ J ( μ θ ) = E s ∼ ρ μ [ ∇ θ μ θ ( s ) ∇ a Q μ ( s , a ) ∣ a = μ θ ( s ) ] \nabla_{\theta} J\left(\mu_{\theta}\right)=E_{s \sim \rho^{\mu}}\left[\left.\nabla_{\theta} \mu_{\theta}(s) \nabla_{a} Q^{\mu}(s, a)\right|_{a=\mu_{\theta}(s)}\right] θJ(μθ)=Esρμ[θμθ(s)aQμ(s,a)a=μθ(s)]

然后在原始论文当中还有两点是比较有趣的:

  1. 作者为了防止采用确定性的策略造成策略的探索性变弱,作者在论文中提出了一种off-policy的方法,通过随机的动作策略去选动作,但是去学一个确定的目标策略,提升确定性策略下的探索。
  2. 对于目标函数中的价值估计部分,我们可以使用一个值函数模型进行拟合,这样价值模型不需要遵从某个策略,这个结论作者在论文的4.3部分进行了证明。

上一篇:强化学习的学习之路(五十二)2021-02-21 ACER
下一篇:强化学习的学习之路(五十四) 2021-02-23 DDPG

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值