目录
第1章 强化学习基础
1.1 概述
强化学习(reinforcement learning,RL)
讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。
智能体的目的就是尽可能多地从环境中获取奖励。
1.1.1 强化学习与监督学习
监督学习:输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed,简称 i.i.d.)。
强化学习中得到的数据是相关时间序列数据,不满足独立同分布,且智能体无法得到即时的反馈。
强化学习面临着延迟奖励(delayed reward),即现在的动作无法判定对错,直至游戏结束。