强化学习简单介绍

阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第十一章reinforcement learning

本章为强化学习入门引入,更详细的知识需要进一步发展

1、什么是强化学习

reinforcement learning (RL)是近年来最有前进的领域。例如AlphaGo,自动帆船等核心算法都是强化学习。

2、与有监督、无监督学习的差异

RL和有监督学习、无监督学习都是不一样的
与有监督学习不同,RL不依赖与有标签的训练数据。
与无监督学习不同,RL不需要寻找输入的固有结构,RL的唯一目标是最大化奖励同时减少惩罚。
强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数

3、RL的学习机制

(1)反复学习像小孩子学站立是在不断失败的尝试之后学会的,小鸟学习飞翔也是在很多次失败之后成功的,RL机制在变得可靠有成效之前也是学习了很多场游戏,有成功也有失败。
(2)奖惩机制有宠物的人都知道训练宠物最好的方法是对理想行为的奖励和对坏行为的惩罚。RL也是依据正阳的奖惩机制的。
(3)RL是一个目标导向的学习

4、RL主要成分

(1)agent:个体,对象
(1)state:agent所处的状态
(2)action:agent根据每次所处的state以及上一状态的reward确定当前要执行什么action
(3)reward:奖惩机制 R t R_t Rt
(4)policy:policy就是只agent的行为,是从state到action的映射,分为确定策略和与随机策略,确定策略就是某一状态下的确定动作, 随机策略以概率来描述,即某一状态下执行这一动作的概率
(5)return:通过最大化reward来得到一个最优策略,所以输出的是从当前时刻开始一直到到达目的的总reward, G t = ∑ t ∞ λ k R t + k + 1 G_t = \sum_t^{\infty}\lambda^kR_{t+k+1} Gt=tλkRt+k+1
(6)value function:是个函数,随机初始化,用来获得最优策略

5、bellman

bellman方程是强化学习各大算法(例如值迭代,策略迭代,Q-learning)的源头

6、DRL

Deep Reinforcement Learning (DRL)深度强化学习,可以分为两类:
(1)Value-based methods:算法选择最大化函数值的活动,agent学习根据状态和活动预测下一步的好坏,典型算法是Q-Network
(2)Policy-based methods:算法预测最优策略,不估计函数值,agent目标是找到最优策略,而不是最优行为。

7、DQN

在2013年提出的DQN算法可以说是深度学习和强化学习的第一次成功结合。
DQNs(Deep Q-Networks)是一个深度学习网络,是Q-learning算法的扩展之一,是最流行的强化学习算法之一,由谷歌在2013年发表.
Double DQN:是DQN的扩展算法
Dueling DQN:是一个比较容易实现的DQN变种,它和DQN的唯一差别就是Network构造的不同

8、DDPG

DQN难以应对的是大的动作空间,特别是连续动作情况。而DDPG可以应对连续动作的输出及大的动作空间。
DDPG是谷歌研发的又一款成功的强化学习算法,由两个网络组成,一个策略网络(Actor),一个价值网络(Critic),策略网络输出动作,价值网络评判动作。

9、OpenAI Gym

当今有很多强化学习平台,OpenAI Gym是其中一个。agent使用reset, step, render方法和环境镜像交互

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值