DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)

DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)
首先环境会给出一个obs,只能根据actor网络做出决策action,环境会给出reward和新的obs,这是一个step;此时我们会根据reward更新critic网络。(根据策略更新值函数)然后沿critic建议的方向更新actor网络(根据值函数更新策略),接着进入下一个step,如此循环往复。直至训练出一个好的actor网络
DDPG既有值函数,又有策略函数,而DQN只有值函数
强化学习每次解决两个事情,一个是给定一个策略求值函数,一个是根据值函数更新策略。critic的作用是近似
值函数
。actor的作用是近似策略函数

actor和critic都根据target网络计算target
actor
根据策略梯度来评价策略的好坏,策略梯度分为随机性在线、随机性离线、确定性在线、确定性离线。DDPG是确定性的,故只有后两种。
注意:off-police 指产生行为的策略和评估行为的策略不一样
DDPG使用的是soft update ,而DQN使用的是hard update
经验回放是个啥玩意

DQN只能解决离散且维度不高的动作空间,而DDPG可以解决连续动作空间,DQN对q-learning做了改进,使用深度神经网络做函数近似,使用经验回放,使用target网络。而DDPG也使用了深度神经网络,经验回放,target网络

理论上对于任意的(s,a)都可以找个一个值函数对,但是当值函数过多的时候,分别去求买一个值函数会很慢,因此就采用一个值函数近似的方式去求值函数对。这样对于未知的状态也可以找到相应的动作。
对于近似函数采用的方式就是神经网络。当然采用线性函数也是可以的。

值函数网络与ϵ-greedy策略之间的联系为这样的:首先环境会给出一个obs, 智能体根据值函数网络会计算所有action的Q(s,a)值,然后利用ϵ-greedy策略选出一个action并作出决策,环境接收到一个acttion 会给出一个reward以及下一个obs,这是一个step,之后值函数网络接受该reward更新值函数中的参数,进行下一步,如此循环下去,训练出一个值函数网络。

强化学习可以纳入到马尔可夫过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值