深度强化学习中DDPG算法

深度强化学习总的来说都是以强化学习为骨架,用神经网络代替耗内存很高的组件,加速计算。

DDPG算法是的Actor-Critic算法和神经网络的集合,就是actor部分和critic部分都用神经网络来表示。

重要的是两个神经网络怎么优化。

actor部分(就是策略函数):a = π (s,u)
critic部分(就是Q函数): Q(s,a,w)
怎么求策略梯度呢?策略梯度就是Q对u 的梯度,先Q对a求导,然后a对u求导;
求critic部分的梯度就很简单了,target Q值是清楚的,直接对求梯度即可,和Double DQN一样,采用分离的w 和 w_防止震荡。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值