目录
1.1 强化学习相关概念
强化学习是机器通过与环境交互来实现目标的一种计算方法(交互是一轮一轮的)
强化学习用智能体(agent)这个概念来表示做决策的机器,强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号
迭代式交互中存在三个关键要素:感知、决策、奖励
智能体进行强化学习的决策是多轮的,这意味当前轮次带来最大奖励的动作长久来看不一定最优
随机过程:关键在状态以及状态转移的条件概率分布
加入智能体动作后,下个状态概率由初始状态和智能体动作共同决定,新状态下智能体进一步决策
目标:使整体回报达到最高,回报的期望是价值,优化的目标是让价值尽可能高
监督学习和强化学习的区别:
监督学习给定数据集,在设定优化函数之后得到最优参数,数据分布不变
强化学习发生在智能体和环境的交互中,如果智能体策略不同,得到的训练结果也不尽相同
占用度量:
归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互过程中,采样到一个具体的状态动作对(state-action pair)的概率分布
智能体的策略发生改变,占用度量也会改变
强化学习本质的思维方式:
- 强化学习的策略在训练中会不断更新,其对应的数据分布(即占用度量)也会相应地改变。因此,强化学习的一大难点就在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
- 由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应的奖励的期望,因此寻找最优策略对应着寻找最优占用度量。
强化学习和监督学习的相似和不同:
- 有监督学习和强化学习的优化目标相似,即都是在优化某个数据分布下的一个分数值的期望。
- 二者优化的途径是不同的,有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过改变策略来调整智能体和环境交互数据的分布,进而优化目标,即修改数据分布而目标函数不变。
综上所述,一般有监督学习和强化学习的范式之间的区别为:
- 一般的有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小;
- 强化学习关注寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望。