![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
catchy666
这个作者很懒,什么都没留下…
展开
-
【深度强化学习】TD3算法:DDPG的进化
TD3算法是一个对DDPG优化的版本,即TD3也是一种基于AC架构的面向连续动作空间的DRL算法,主要包括三个非常主要的优化。原创 2020-08-08 12:56:45 · 26156 阅读 · 2 评论 -
DRL实战:DDPG & A3C | Gym环境中经典控制问题Pendulum-v0
倒立摆问题是控制文献中的经典问题。原创 2020-08-05 16:51:39 · 11264 阅读 · 6 评论 -
【深度强化学习】DDPG算法
确定性策略梯度(Deterministic Policy Gradient,DPG)原创 2020-07-18 14:48:59 · 12736 阅读 · 0 评论 -
【深度强化学习】A3C
由于普通的Actor-Critic难以收敛,需要一些其他的优化;Asynchronous Advantage Actor-Critic(A3C)就是其中较好的优化算法。原创 2020-07-14 15:12:25 · 2203 阅读 · 0 评论 -
【强化学习】Actor-Critic算法
基于策略(Policy Based)的算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不易收敛。本篇来学习Policy Based和Value Based相结合的方法——Actor-Critic算法原创 2020-07-13 21:51:48 · 2940 阅读 · 0 评论 -
【强化学习】策略梯度算法(Policy Gradient)
基于价值的强化学习算法是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。强化学习中另一个很重要的算法——Policy Gradient则省略中间的步骤,即直接根据当前的状态来输出动作或动作的概率。原创 2020-07-13 15:38:46 · 1966 阅读 · 0 评论