强化学习
ygpGoogle
这个作者很懒,什么都没留下…
展开
-
Imitation Learning
文章目录1.Behavior Cloning2.Inverse Reinforcement Learning (IRL)很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料,让agent跟着做。本文会讲两个Imitation Learning的方法:1.Behavior CloningBehavior Cloning其实和监督学习(supervised learning)是一样的。 以自动驾驶为例子,搜集很多的expert(假设是人类)驾驶原创 2020-10-18 20:16:21 · 230 阅读 · 0 评论 -
Sparse Reward
文章目录1、Reward ShapingCuriosityICM的设计2、Curriculum Learning3、Hierarchical RL在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。所以下面介原创 2020-10-18 20:00:59 · 165 阅读 · 0 评论 -
Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
文章目录回顾Actor-CriticAdvantage Actor-CriticAsynchronous Advantage Actor-Critic (A3C)Pathwise Derivative Policy GradientQ Learning 和 Pathwise Derivative Policy Gradient 的执行过程对比:回顾Policy gradientG表示在sts_tst采取ata_tat一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为原创 2020-10-18 16:53:28 · 420 阅读 · 0 评论 -
Q-learning如何处理连续的动作?
文章目录1、 穷举action2、使用梯度上升求Q value3、Normalized Advantage Functions(NAF)普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。因为如果action是离散的几个动作,那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的,此时action就是一个vector,vector里面又都有对应的value,那就没办法穷举所有的原创 2020-10-18 15:45:02 · 1473 阅读 · 0 评论 -
Q-learning的进阶版算法
文章目录Double DQN(DDQN)Dueling DQN优先回放(Prioritized Experience Replay)N step bootstrapingNoisy NetDistributional Q-functionRainbowDouble DQN(DDQN)DQN的Q-value往往是被高估的,如下图上图为四个游戏的训练结果的对比。橙色的曲线代表DQN估测的Q-value,橙色的直线代表DQN训练出来的policy实际中获得的Q-value蓝色的曲线代表Double D原创 2020-10-16 16:01:00 · 423 阅读 · 0 评论 -
Q-Learning基本思想
文章目录Q-learningValue-Fuction计算Vπ(s)V^\pi(s)Vπ(s)的2种方式:1、Monte-Carlo (MC) based approach :2、Temporal-difference (TD) approachMC v.s. TD :Q-function:Q-Learning使用技巧:技巧1:使用Target network技巧2:使用exploration1、Epsilon Greedy2、Boltzmann Exploration技巧3:使用Replay Buffer原创 2020-10-12 11:58:11 · 891 阅读 · 0 评论 -
Proximal Policy Optimization (PPO)详解
文章目录From on-policy to off-policyAdd ConstraintFrom on-policy to off-policyUsing the experience more than onceAdd Constraint原创 2020-10-11 20:40:32 · 6162 阅读 · 1 评论 -
Policy gradient(策略梯度详解)
文章目录策略梯度基本知识什么是策略梯度?强化学习案例策略梯度公式详解如何使你的损失函数更好增加一个基准为每一个action分配不同的权重策略梯度基本知识什么是策略梯度?直接根据状态输出动作或者动作的概率。那么怎么输出呢,最简单的就是使用神经网络啦!我们使用神经网络输入当前的状态,网络就可以输出我们在这个状态下采取每个动作的概率,那么网络应该如何训练来实现最终的收敛呢?我们之前在训练神经网络时,使用最多的方法就是反向传播算法,我们需要一个误差函数,通过梯度下降来使我们的损失最小。但对于强化学习来说,我们原创 2020-10-11 15:07:47 · 22223 阅读 · 8 评论 -
强化学习经典入门教程
文章目录Introduction of Reinforcement Learning什么是强化学习强化学习的应用下棋聊天机器人Example: Playing Video GameIntroduction of Reinforcement LearningDeep Reinforcement Learning深度强化学习等价于强化学习加上深度学习。什么是强化学习如下图所示,有一个Agent,也就是机器,然后它将自己观察到的场景作为输入,然后去执行某个行为去改变这种场景,比如他观察到一杯水,然后他原创 2020-10-10 19:35:13 · 3305 阅读 · 4 评论