第1章:强化学习介绍

参考书籍:
Reinforcement Learning An introduction 第二版
作者:Richard S. Sutton and Andrew G. Barto
以及此书的中文版《强化学习》

第1章:强化学习介绍

下一章:第2章:多臂赌博机

1.强化学习

强化学习是学习如果对环境的一系列状态施加一些列动作,使得这个过程的奖励最大化。
强化学习的主要特点:

  1. 试错搜索(只能不断的尝试,从失败中吸取教训)
  2. 延时奖励(采取一个动作,不一定会影响当前收益,但是很可能会影响未来的收益)

强化学习不同于监督学习。监督学习是给定了标签的,强化学习并没有正确的标签,即使你想给出标签,也是不切实际的。例如,一个超级玛丽的游戏 ,游戏画面即状态,当作一个输入,其实人也很难确定这个状态,采取动作的收益是多少。而且状态数量非常多,你要都给出动作的收益也不现实。正如上面所说的强化学习的特点有试错搜索,就是希望不要人为的设定,能够自己不断的尝试,在错误中总结,得到最大的收益。
强化学习不同于无监督学习。因为无监督学习不依赖于标签,而上面也提到了强化学习也不依赖于正确标签,这似乎让人觉得强化学习是无监督学习。但是,无监督学习的目标试图找到数据内部之间的联系或信息。而强化学习的目标是获得最大化收益,并不是考虑数据本身的联系。

强化学习的一大挑战是平衡探索和利用。强化学习是试错搜索,因此,能得到很多的试错信息,称之为经验。”利用“就是吸取经验的过程,“探索”则是继续试错的过程。”利用“是为了能够在以往的经验中总结出最好的动作选择。”探索“是为了能在不断试错过程中,找到比以往最好动作选择还要更好的动作选择。

强化学习一个关键的特点是,它需要思考智能体与环境交互整个过程的问题。而通常其它问题,考虑子问题并不需要考虑子问题合并后的问题。

2. 强化学习元素

除了智能体和环境,强化学习系统还有四个主要的子元素:a policy(策略)、a reward signal(奖励)、a value function(值函数)、a model of environment(环境模型)。(环境模型是一个可选子元素)
a policy是智能体对环境的状态依据该策略给出动作。
a reward signal表明当前采取的动作有多好,a value function指定智能体依据策略长期采取动作运行下去有多好。奖励是首要的,价值是次要的。没有奖励就没有价值,价值的目的是去获得更多的奖励。值得注意的是,在评估和决定动作的时候,我们更关注价值。我们希望采取能带来最大价值的动作,而不是最大奖励的动作(因为上面黑体字也说明了,奖励只能代表当下好坏,而价值代表长远好坏)。奖励可以由环境直接给出,不幸的是,我们很难去确定价值,因为价值需要由智能体与环境进行长期的交互来评估。事实上,几乎所有强化学习算法最重要的就是考虑如何有效的评估价值。
a model of environment环境模型是一部分强化学习系统会使用的子元素。环境模型刻画的是环境的行为。模型可以用来规划(Planning)。使用模型和规划来解决强化学习的方法称为基于模型的方法(model-based method)。与之相反的方法是无模型的方法(model-free method)。无模型的方法是学习者通过不断的试错进行学习,这与规划相反。

3.补充

很多强化学习算法是围绕估计价值函数构造的。但对于解决强化学习问题,这也并不是必要的。因为例如遗传算法、、遗传规划、模拟退火等方法在解决强化问题时,并不会去估计价值函数。

下一章:第二章:多臂赌博机

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值