![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
一路没你
这个作者很懒,什么都没留下…
展开
-
强化学习入门,分类及总结
自学强化学习,主要是看了网上大佬们写的一些文章,都是零零碎碎的强化学习的算法,所以这篇文章主要是总结我学的知识,可能知识点不是很全,后期慢慢补充吧,如果有理解错误也烦请指出。主要参考资料:知乎天津肉包子馅儿、莫烦、还有刘建平博客。概述如上图,强化学习就是智能体和环境交互的过程,是一个马尔科夫决策过程\color{red}{马尔科夫决策过程}马尔科夫决策过程(当前状态仅与上个状态和所做的...原创 2019-04-11 23:34:59 · 467 阅读 · 0 评论 -
简单的PPO算法笔记
学习了莫烦讲解的PPO,写了点自己的理解笔记,希望能帮到你们。代码代码可以去上面的链接自己下载跑一下,这边也给出我参考莫烦自己学的,基本是一样的:import gymimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltEP_MAX = 1000EP_LEN = 200BATCH =...原创 2019-03-10 17:03:42 · 28664 阅读 · 33 评论 -
Actor-Critic(AC)算法笔记
1原创 2019-03-02 21:31:20 · 6160 阅读 · 9 评论 -
Policy Gradient(PG算法)理解笔记
学习PG算法,看了很多的文章,看代码也花了不少时间,这篇文章主要写莫烦老师给的程序的理解,当然也结合了一些文章里面的公式推导,还参考了其他相关的文章代码这边直接给出莫烦老师的RL代码,其他剩余的理解不难,可以自己下载。import numpy as npimport tensorflow as tf# reproduciblenp.random.seed(1)tf.set_ra...原创 2019-02-28 15:13:56 · 8374 阅读 · 4 评论 -
基于策略的强化学习公式推导
基于策略的强化学习就是最大化平均收益Rˉ\bar{R}Rˉ,公式如下:Rˉ=∑τPθ(τ)R(τ)\bar{R}=\sum_\tau P_{\theta}(\tau)R(\tau)Rˉ=τ∑Pθ(τ)R(τ)其中,τ\tauτ为一个episode,可以写成{s1,a1,r1,…,sH,aH,rHs_1,a_1,r_1,\dots,s_H,a_H,r_Hs1,a1,r1,…,sH...原创 2019-08-27 15:07:40 · 1001 阅读 · 0 评论