DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)

最新推荐文章于 2022-08-14 23:31:16 发布

嗯哼哼哼

最新推荐文章于 2022-08-14 23:31:16 发布

阅读量1.6k

点赞数

分类专栏：总结文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44954502/article/details/103733426

版权

总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)
首先环境会给出一个obs,只能根据actor网络做出决策action，环境会给出reward和新的obs,这是一个step；此时我们会根据reward更新critic网络。(根据策略更新值函数)然后沿critic建议的方向更新actor网络（根据值函数更新策略），接着进入下一个step,如此循环往复。直至训练出一个好的actor网络
DDPG既有值函数，又有策略函数，而DQN只有值函数
强化学习每次解决两个事情，一个是给定一个策略求值函数，一个是根据值函数更新策略。critic的作用是近似值函数。actor的作用是近似策略函数

actor和critic都根据target网络计算target
actor
根据策略梯度来评价策略的好坏，策略梯度分为随机性在线、随机性离线、确定性在线、确定性离线。DDPG是确定性的，故只有后两种。
注意：off-police 指产生行为的策略和评估行为的策略不一样
DDPG使用的是soft update ，而DQN使用的是hard update
经验回放是个啥玩意

DQN只能解决离散且维度不高的动作空间，而DDPG可以解决连续动作空间，DQN对q-learning做了改进，使用深度神经网络做函数近似，使用经验回放，使用target网络。而DDPG也使用了深度神经网络，经验回放，target网络

理论上对于任意的（s,a）都可以找个一个值函数对，但是当值函数过多的时候，分别去求买一个值函数会很慢，因此就采用一个值函数近似的方式去求值函数对。这样对于未知的状态也可以找到相应的动作。
对于近似函数采用的方式就是神经网络。当然采用线性函数也是可以的。

值函数网络与ϵ-greedy策略之间的联系为这样的：首先环境会给出一个obs, 智能体根据值函数网络会计算所有action的Q（s，a）值,然后利用ϵ-greedy策略选出一个action并作出决策，环境接收到一个acttion 会给出一个reward以及下一个obs，这是一个step,之后值函数网络接受该reward更新值函数中的参数，进行下一步，如此循环下去，训练出一个值函数网络。

强化学习可以纳入到马尔可夫过程。

嗯哼哼哼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)

DDPG(总结由> https://wanjun0511.github.io/2017/11/05/DQN/)首先环境会给出一个obs,只能根据actor网络做出决策action，环境会给出reward和新的obs,这是一个step；此时我们会根据reward更新critic网络。(根据策略更新值函数)然后沿critic建议的方向更新actor网络（根据值函数更新策略），接着进入下一个st...
复制链接

扫一扫