第1章 初识强化学习
强化学习(Reinforcement Learning)来源于行为心理学,表示生物为了趋利避害而更频繁实施对自己有利的策略。
1.1 强化学习及其关键元素
在人工智能领域中,强化学习是一类特定的机器学习问题。
在一个强化系统中,决策者可以观察环境,并根据观测作出行动。在行动之后,能够获得奖励。
强化学习通过与环境的交互来学习如何最大化奖励。
强化学习系统的两个关键要素:
- 奖励:强化学习系统的目标,包括正奖励和负奖励。
- 策略:强化学习的学习对象就是策略。决策者根据不同的观测采用不同的动作,这种从观测到动作的关系称为策略。
强化学习与监督、非监督学习存在本质区别
- 与监督学习对比:对于监督学习,学习者知道每个动作的正确答案,通过对比来学习;对于强化学习,学习者不知道每个动作的正确答案,只能通过奖励信号来学习。
- 与非监督学习对比:非监督学习旨在发现数据之间隐含的结构;而强化学习有着明确的数值目标,即奖励。所以,非监督学习一般用于聚类。
1.2 强化学习的应用
基于强化学习的人工智能已经有许多成功的应用。例如:
- 电动游戏:吃豆人、星际争霸、Flappy Bird等。
- 棋盘游戏:Alpha Go、Alpha Zero。
- 自动驾驶:基于强化学习的控制策略可以帮助开发自动驾驶的算法。
1.3 智能体 / 环境接口
- 智能体:是强化学习系统中的决策者和学习者,可以做出决策和接受奖励信号。
- 环境:是强化系统中除智能体以外的所有事物,是智能体交互的对象。
智能体 / 环境接口的核心思想在于分隔主观可以控制的部分和客观不能改变的部分。
注意:强化学习问题不一定要借助智能体 / 环境接口来研究。
智能体 / 环境接口中,智能体与环境的交互主要有三个环节:
- 智能体获得环境的观测(observation),记为 O O O ;
- 智能体根据观测,决定对环境施加的动作(action),记为 A A A ;
- 环境受智能体动作的影响,改变自己的状态(state),记为 S S S ,并给与奖励(reward),记为 R R R 。
- 在这三个环节中,观测 O O O 、动作 A A A 和奖励 R R R 是智能体直接可以观测到的。
绝大多数的强化学习问题是按时间顺序或因果顺序发生的,其特点是具有先后顺序,并且先前的状态和动作会影响后续的状态等。这样的问题,我们引入时间指标 t t t ,记 t t t 时刻的状态为 S t S_t