强化学习
根据李宏毅的强化学习课程而整理出的一些CSDN笔记。
工藤旧一
小米公司 搜索算法工程师
展开
-
强化学习入门(七):Actor-Critic系列算法原理
文章目录一、AC系列算法的引出——回顾Policy gradient与Q-learning1、回顾Policy gradient2、回顾Q-learning二、Actor-Critic系列算法1、Actor-Critic2、Advantage Actor-Critic(A2C)1、引出原因2、基本原理1、如何只用一个网络去估计2、优势3、执行过程4、两个技巧1、技巧1:actor和critic的参...原创 2020-04-19 11:13:53 · 4415 阅读 · 0 评论 -
强化学习入门(六):Q-learning系列算法3:连续动作(NAF)
本文是在https://blog.csdn.net/acl_lihan/article/details/104076938的基础上进行了部分改动,加上了一点个人理解,原博客写的非常好,不妨一同查阅。普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。因为如果action是离散的几个动作,那就可以把这几个动作...原创 2020-04-18 20:27:14 · 2124 阅读 · 0 评论 -
强化学习入门(五):Q-learning算法系列2:进阶算法
文章目录一、Double DQN(DDQN)1、引出原因2、DDQN基本原理二、Dueling DQN1、创新点2、优势所在三、优先回放(Prioritized Experience Replay)四、Multi-step: Combination of MC and TD五、Noisy Net1、创新点——在参数上加noise2、优势六、Distributional Q-function1、提出...原创 2020-04-18 19:27:23 · 1470 阅读 · 0 评论 -
强化学习入门(四):Q-learning算法系列1:基本思想
文章目录一、基本思想1、基本介绍1、critic2、状态价值函数 Vπ(s)V^{\pi}(s)Vπ(s)2、状态价值函数Vπ(s)V^{\pi}(s)Vπ(s)的评估1、基于蒙特卡洛的方法Monte-Carlo (MC)2、时序分差方法Temporal-difference (TD)3、MC与TD比较3、Q-Learning基本原理1、另一个crtic——状态-行动价值函数 Qπ(s,a)Q^\...原创 2020-04-18 14:59:42 · 2633 阅读 · 0 评论 -
强化学习入门(三):PPO、PPO2、TRPO算法思想
在上一篇博客最后,我们说到了θ\thetaθ和θ′\theta'θ′是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?这就是这一篇要介绍的PPO所在做的事情。摘要:PPO在原目标函数的基础上添加了KL divergence 部分,用来表示两个分布之前的差别,差别越大则该值越大。那么施加在目标函数上的惩罚也就越大,因此要尽量使得两个分布之间的差距小,才能保证较大的目标函数。TRPO ...原创 2020-04-17 18:56:27 · 8864 阅读 · 0 评论 -
强化学习入门(二):on-policy与off-policy
一、名词解释即引入原因1、名词解释:翻译过来就是:On-policy: 学习到的agent以及和环境进行互动的agent是同一个agentOff-policy: 学习到的agent以及和环境进行互动的agent是不同的agent直观理解就是:On-policy:相当于你在打游戏,你在实战中变强。Off-policy:相当于你在看直播,你在观摩中变强。2、为何要引入 Off-pol...原创 2020-04-17 15:54:34 · 4520 阅读 · 2 评论 -
强化学习入门(一):什么是Policy Gradient
一、强化学习基础认知1、强化学习三要素1、actor (即policy gradient要学习的对象, 是我们可以控制的部分)2、环境 environment (给定的,无法控制)3、回报函数 reward function (无法控制)2、名词介绍Policy of actor π \omicron(决策):如下图(本文图片均来自于李宏毅的强化学习课件,其视频内容可点击此处查看)所...原创 2020-04-17 10:29:23 · 3744 阅读 · 0 评论