第六章强化学习

最新推荐文章于 2024-01-08 01:25:53 发布

zhousiyuan0515

最新推荐文章于 2024-01-08 01:25:53 发布

阅读量748

点赞数

文章标签：概率论算法机器学习

本文链接：https://blog.csdn.net/zhousiyuan0515/article/details/129476469

版权

强化学习：在于环境交互之中进行学习，在智能主体与环境的交互中，学习能最大化受益的行动模式。

智能主体：

按照某种策略，根据当前的状态选择合适的动作；
状态指的是智能主体对环境的一种解释；
动作反映了智能主体对环境主观能动的影响，动作带来的收益称为奖励；
只能主体可能知道也可能不知道环境变化的规律；

环境：

系统中智能主体以外的部分；
向智能主体反馈状态和奖励；
按照一定的规律发生变化；

强化学习特点：

基于评估：强化学习利用环境评估当前策略，以此为依据进行优化；
交互性：强化学习的数据在环境的交互中产生；
序列决策过程：智能主体在与环境的交互中需要作出一系列的决策，这些决策往往是前后关联的；

离散马尔可夫过程：

一个随机过程实际上是一列随时间变化的随机变量，其中当时间是离散量时，一个随机过程剋有表示为{Xt}t = 0，1，2，...;
马尔科夫链：满足马尔可夫性的离散随机过程，也被称为离散马尔可夫过程；

为了在序列决策中对目标进行优化，在马尔可夫随机过程框架中加入了奖励机制，奖励过程：

奖励函数R : S × S → R，其中R(St，St+1)描述了从第t步状态转义导第t + 1步状态所获得奖励；
在一个序列决策过程中，不同状态之间的转移产生了一系列的奖励；
引入奖励机制，这样可以衡量任意序列的优劣，即对序列决策进行评价；

在强化学习问题中，智能主体与环境交互过程中可自主决定所采取的动作，不同动作会对环境产生不同影响，引入动作：

定义智能主体能够采取的动作集合为A；
由于不同的动作对环境造成的影响不同，因此状态转移概率定义为Pr；
奖励可能受动作的影响，因此修改奖励函数；
动作集合A可以是有限的，也可以是无限的；
状态转移可是确定的，也可以是随机概率性的；
确定状态转移相当于发生从St到St+1的转移概率为1；

决策过程：

马尔可夫决策过程MDP = {S, A, Pr, R, γ}是刻画强化学习中环境的标准模式；
马尔可夫决策过程可用如下序列来表示：

轨迹长度可以是无限的，也可以有终止状态。有终止状态的问题叫做分段的，否则叫做持续的；分段问题中，一个从初始状态到终止状态的完整轨迹称为一个片段。

在机器人移动问题中：状态、行为、衰退系数、起始/终止状态、反馈、状态转移概率矩阵。

策略学习：一个好的策略是在当前状态下采取一个行动，该行动能够在未来收到最大化的反馈

价值函数：在第t步状态为s是，按照策略Π行动后未来所获得反馈值的期望；
动作-价值函数：在第t步状态为s时，按照策略Π采取动作a后，在未来所获得反馈值的期望；

策略优化与策略评估

强化学习的问题与求解

基于价值的求解方法

策略优化：

策略评估：

通过迭代计算贝尔曼方程进行评估：

动态规划；
蒙特卡洛采样；
时序差分

动态规划的缺点：

智能主体需要事先知道状态转移概率；
无法处理状态集合大小无限的情况；

蒙特卡洛采样法的优点：

智能主体不必知道状态转移概率；
容易扩展到无限状态集合的问题中；

缺点：

状态集合比较大时，一个状态在轨迹可能非常稀疏，不利于估计期望；
在实际问题中，最终反馈需要在终止状态才能知晓，导致反馈周期较长；

强化学习求解

基于价值的求解方法

策略优化与策略评估结合：

Q学习中只有利用没有探索，所以收敛到非最优策略。

思路：

将q函数参数化，用一个非线性回归模型来拟合q函数；
用有限的参数刻画无限的状态；
由于回归函数的连续性，没有探索过的状态也可通过周围的状态来估计；

深度强化学习

损失函数刻画了q的估计值与当前值的平方误差；
利用梯度下降法优化参数θ；
如果用深度神经网络来拟合q函数，则算法称为深度Q学习；

深度Q学习的两个不稳定因素;

相邻的样本来自同一条轨迹，样本之间相关性太强，集中优化相关性强的样本可能导致神经网络在其他样本上效果下降；
在损失函数中，q函数的值既用来估计目标值，又用来计算当前值。现在这两处的q函数通过θ有所关联，可能导致优化时不稳定；

经验重现：

相邻的样本来自同一条轨迹，样本之间相关性太强，集中优化相关性强的样本可能导致神经网络在其他样本上效果下降。
将过去的经验存储下来，每次将新的样本加入到存储中去，并从存储中采样一批样本进行优化：解决了样本相关性强的问题，重用经验，提高了信息利用的效率。

目标网络在损失函数中，q函数的值既用来估计目标值，又用来计算当前值。两处q通过参数θ关联，可能导致优化时不稳定。

损失函数的两个q函数用不同的参数计算：

用于计算估计值的q使用参数θ-计算，这个网络叫做目标网络；
用于计算当前值的q使用参数θ计算；
保持θ-的值相对稳定，更新多次后才同步两者的值；

zhousiyuan0515

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第六章强化学习

强化学习：在于环境交互之中进行学习，在智能主体与环境的交互中，学习能最大化受益的行动模式。轨迹长度可以是无限的，也可以有终止状态。有终止状态的问题叫做分段的，否则叫做持续的；分段问题中，一个从初始状态到终止状态的完整轨迹称为一个片段。在机器人移动问题中：状态、行为、衰退系数、起始/终止状态、反馈、状态转移概率矩阵。策略学习：一个好的策略是在当前状态下采取一个行动，该行动能够在未来收到最大化的反馈。
复制链接

扫一扫