参考书籍:
Reinforcement Learning An introduction 第二版
作者:Richard S. Sutton and Andrew G. Barto
以及此书的中文版《强化学习》
第1章:强化学习介绍
下一章:第2章:多臂赌博机
1.强化学习
强化学习是学习如果对环境的一系列状态施加一些列动作,使得这个过程的奖励最大化。
强化学习的主要特点:
- 试错搜索(只能不断的尝试,从失败中吸取教训)
- 延时奖励(采取一个动作,不一定会影响当前收益,但是很可能会影响未来的收益)
强化学习不同于监督学习。监督学习是给定了标签的,强化学习并没有正确的标签,即使你想给出标签,也是不切实际的。例如,一个超级玛丽的游戏 ,游戏画面即状态,当作一个输入,其实人也很难确定这个状态,采取动作的收益是多少。而且状态数量非常多,你要都给出动作的收益也不现实。正如上面所说的强化学习的特点有试错搜索,就是希望不要人为的设定,能够自己不断的尝试,在错误中总结,得到最大的收益。
强化学习不同于无监督学习。因为无监督学习不依赖于标签,而上面也提到了强化学习也不依赖于正确标签,这似乎让人觉得强化学习是无监督学习。但是,无监督学习的目标试图找到数据内部之间的联系或信息。而强化学习的目标是获得最大化收益,并不是考虑数据本身的联系。
强化学习的一大挑战是平衡探索和利用。强化学习是试错搜索,因此,能得到很多的试错信息,称之为经验。”利用“就是吸取经验的过程,“探索”则是继续试错的过程。”利用“是为了能够在以往的经验中总结出最好的动作选择。”探索“是为了能在不断试错过程中,找到比以往最好动作选择还要更好的动作选择。
强化学习一个关键的特点是,它需要思考智能体与环境交互整个过程的问题。而通常其它问题,考虑子问题并不需要考虑子问题合并后的问题。
2. 强化学习元素
除了智能体和环境,强化学习系统还有四个主要的子元素:a policy(策略)、a reward signal(奖励)、a value function(值函数)、a model of environment(环境模型)。(环境模型是一个可选子元素)
a policy是智能体对环境的状态依据该策略给出动作。
a reward signal表明当前采取的动作有多好,a value function指定智能体依据策略长期采取动作运行下去有多好。奖励是首要的,价值是次要的。没有奖励就没有价值,价值的目的是去获得更多的奖励。值得注意的是,在评估和决定动作的时候,我们更关注价值。我们希望采取能带来最大价值的动作,而不是最大奖励的动作(因为上面黑体字也说明了,奖励只能代表当下好坏,而价值代表长远好坏)。奖励可以由环境直接给出,不幸的是,我们很难去确定价值,因为价值需要由智能体与环境进行长期的交互来评估。事实上,几乎所有强化学习算法最重要的就是考虑如何有效的评估价值。
a model of environment环境模型是一部分强化学习系统会使用的子元素。环境模型刻画的是环境的行为。模型可以用来规划(Planning)。使用模型和规划来解决强化学习的方法称为基于模型的方法(model-based method)。与之相反的方法是无模型的方法(model-free method)。无模型的方法是学习者通过不断的试错进行学习,这与规划相反。
3.补充
很多强化学习算法是围绕估计价值函数构造的。但对于解决强化学习问题,这也并不是必要的。因为例如遗传算法、、遗传规划、模拟退火等方法在解决强化问题时,并不会去估计价值函数。
下一章:第二章:多臂赌博机