![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RL
xgyyxs
这个作者很懒,什么都没留下…
展开
-
【RL】--DDPG
DDPG框架图原创 2020-01-03 14:55:52 · 480 阅读 · 0 评论 -
【RL】--Value-Based与Policy-Based的区别
1. 生成policy上的差异:一个随机,一个确定 Value-Base 中的 action-value估计值最终会收敛到对应的true values(通常是不同的有限数,可以转化为0到1之间的概率),因此通常会获得一个确定的策略(deterministic policy) Policy-Based不会收敛到一个确定性的值,另外他们会趋向于生成optimal stochastic policy。如...转载 2019-12-03 17:02:23 · 8912 阅读 · 0 评论 -
【RL】--马尔可夫决策
核心思想 St+1的状态,只由再St时刻采取的行动有关,与历史时刻无关。 即:未来只与现在有关,与过去无关。 参考文献: https://blog.csdn.net/LagrangeSK/article/details/81028260 ...转载 2019-11-28 22:32:48 · 182 阅读 · 0 评论 -
【RL】--DQN、Double DQN、DQN-Prioritized Experience Replay、Dueling DQN
DQN介绍 DQN算法是在Q-learning基础上的改进,在Q-learning中必须存在一张Q表。当时当环境变得极其复杂时,Q表的数据量会相当大,更新过程会变得异常复杂。在经过深度网络的学习之后,我们就可以利用神经网络来代替Q表,只需要把状态S和行动a作为输入就可以得到相应的输出Q(s,a)。 算法原理 DQN相比于 Q-learning的改进之处在于上图中的两处神经网络NN-1和NN-2,...转载 2019-11-28 20:21:53 · 2920 阅读 · 0 评论 -
【RL】--Q-learning与Sarsa原理以及区别
Q-learning 上一状态是在S1;现在的状态S2 上一状态所采取的行动a2;现在将要采取的行动a2 Q-learning是通过本状态(S2)所对应Q表中的最大值maxQ(S2)来更新在上一状态(S1)时所采取的行动Q(s1,a2)的值 通俗一点的解释一下: 也就是当我到达S2之后,S2的下一步也是确定的,即maxQ(S2),然后利用maxQ(S2)更新Q(s1,a2) Sarsa S...转载 2019-10-29 17:17:32 · 825 阅读 · 0 评论