第1章：强化学习介绍

最新推荐文章于 2022-02-10 12:18:01 发布

格雷拉-皮奇

最新推荐文章于 2022-02-10 12:18:01 发布

阅读量416

点赞数

分类专栏： Sutton‘s RL 文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_43897187/article/details/109739667

版权

Sutton‘s RL 专栏收录该内容

5 篇文章 3 订阅

订阅专栏

参考书籍：
Reinforcement Learning An introduction 第二版
作者：Richard S. Sutton and Andrew G. Barto
以及此书的中文版《强化学习》

第1章：强化学习介绍

下一章：第2章：多臂赌博机

1.强化学习

强化学习是学习如果对环境的一系列状态施加一些列动作，使得这个过程的奖励最大化。
强化学习的主要特点：

试错搜索（只能不断的尝试，从失败中吸取教训）
延时奖励（采取一个动作，不一定会影响当前收益，但是很可能会影响未来的收益）

强化学习不同于监督学习。监督学习是给定了标签的，强化学习并没有正确的标签，即使你想给出标签，也是不切实际的。例如，一个超级玛丽的游戏，游戏画面即状态，当作一个输入，其实人也很难确定这个状态，采取动作的收益是多少。而且状态数量非常多，你要都给出动作的收益也不现实。正如上面所说的强化学习的特点有试错搜索，就是希望不要人为的设定，能够自己不断的尝试，在错误中总结，得到最大的收益。
强化学习不同于无监督学习。因为无监督学习不依赖于标签，而上面也提到了强化学习也不依赖于正确标签，这似乎让人觉得强化学习是无监督学习。但是，无监督学习的目标试图找到数据内部之间的联系或信息。而强化学习的目标是获得最大化收益，并不是考虑数据本身的联系。

强化学习的一大挑战是平衡探索和利用。强化学习是试错搜索，因此，能得到很多的试错信息，称之为经验。”利用“就是吸取经验的过程，“探索”则是继续试错的过程。”利用“是为了能够在以往的经验中总结出最好的动作选择。”探索“是为了能在不断试错过程中，找到比以往最好动作选择还要更好的动作选择。

强化学习一个关键的特点是，它需要思考智能体与环境交互整个过程的问题。而通常其它问题，考虑子问题并不需要考虑子问题合并后的问题。

2. 强化学习元素

除了智能体和环境，强化学习系统还有四个主要的子元素：a policy（策略）、a reward signal（奖励）、a value function（值函数）、a model of environment（环境模型）。（环境模型是一个可选子元素）
a policy是智能体对环境的状态依据该策略给出动作。
a reward signal表明当前采取的动作有多好，a value function指定智能体依据策略长期采取动作运行下去有多好。奖励是首要的，价值是次要的。没有奖励就没有价值，价值的目的是去获得更多的奖励。值得注意的是，在评估和决定动作的时候，我们更关注价值。我们希望采取能带来最大价值的动作，而不是最大奖励的动作（因为上面黑体字也说明了，奖励只能代表当下好坏，而价值代表长远好坏）。奖励可以由环境直接给出，不幸的是，我们很难去确定价值，因为价值需要由智能体与环境进行长期的交互来评估。事实上，几乎所有强化学习算法最重要的就是考虑如何有效的评估价值。
a model of environment环境模型是一部分强化学习系统会使用的子元素。环境模型刻画的是环境的行为。模型可以用来规划（Planning）。使用模型和规划来解决强化学习的方法称为基于模型的方法（model-based method）。与之相反的方法是无模型的方法（model-free method）。无模型的方法是学习者通过不断的试错进行学习，这与规划相反。

3.补充

很多强化学习算法是围绕估计价值函数构造的。但对于解决强化学习问题，这也并不是必要的。因为例如遗传算法、、遗传规划、模拟退火等方法在解决强化问题时，并不会去估计价值函数。

下一章：第二章：多臂赌博机

格雷拉-皮奇

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第1章：强化学习介绍

参考书籍：Reinforcement Learning An introduction 第二版作者：Richard S. Sutton and Andrew G. Barto1.强化学习强化学习是学习如果对环境的一系列状态施加一些列动作，使得这个过程的奖励最大化。强化学习的主要特点：试错搜索（只能不断的尝试，从失败中吸取教训）延时奖励（采取一个动作，不一定会影响当前收益，但是很可能会影响未来的收益）强化学习不同于监督学习。监督学习是给的了标签的，强化学习并没有正确的标签，即使你想给出标签
复制链接

扫一扫

专栏目录