强化学习入门，分类及总结

最新推荐文章于 2024-04-05 17:14:40 发布

一路没你

最新推荐文章于 2024-04-05 17:14:40 发布

阅读量465

点赞数

分类专栏：强化学习文章标签：强化学习分类总结

本文链接：https://blog.csdn.net/zhisuihen6347/article/details/89202894

版权

强化学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

自学强化学习，主要是看了网上大佬们写的一些文章，都是零零碎碎的强化学习的算法，所以这篇文章主要是总结我学的知识，可能知识点不是很全，后期慢慢补充吧，如果有理解错误也烦请指出。

主要参考资料：知乎天津肉包子馅儿、莫烦、还有刘建平博客。

概述

在这里插入图片描述
如上图，强化学习就是智能体和环境交互的过程，是一个 $\color{red}{马尔科夫决策过程}$ （当前状态仅与上个状态和所做的动作有关，即 $P(S_{t+1}|S_t,a)$ ），在强化学习的模型中，我们最终的目的是找到一个最优的策略来最大化累计的回报R。
$\color{red}{贝尔曼方程：}$ 这是强化学习的基础，我这边直接贴图。
在这里插入图片描述
下面这张图说明了贝尔曼方程和蒙特卡洛(MC)、时间差分法(TD)和动态规划(DP)的关系：

算法分类

模型

$\color{red}{基于模型的算法}$ ：假设智能体已经知道环境，包括条件转移概率，reward情况等，一般使用 $\color{red}{动态规划}$ 方法来迭代出所有的可能，再作决策；
$\color{red}{无模型的算法}$ ：智能体不了解环境，所以采用随机策略，通过一次次地与环境交互来获取试验采样数据，最后处理这些数据来更新策略。处理数据的方法主要是两种方法： $\color{red}{蒙特卡洛(MC)}$ 和 $\color{red}{时间差分法(TD)}$ ，其中，之后算法用的最后的主要是TD算法。这两种方法的理论上的区别上图应该已经很明显了，在实际实现的时候TD算法是 $\color{red}{单步更新}$ 的，而MC算法则是 $\color{red}{回合更新}$ 的，简单的说：训练中，智能体和环境交互的时候，TD是边交互边更新它的策略，而MC则是每和环境交互完一轮更新一次。

策略和值

$\color{red}{基于值的算法}$ ：上面提到的MC、TD和DP算法都是基于值得算法，我们可以看到每次通过采样数据更新的都是 $\mathcal{v}_\pi(s)$ 或者 $Q_\pi(s,a)$ ，其实最终得到的最优策略就是根据我们每个回合更新的 $Q_\pi(s,a)$ 表，Q表也可以被称为值函数
$\color{red}{基于策略的算法}$ ：算法不是基于贝尔曼方程了，具体公式推导参照李宏毅教授的ppt(提取码：fe5l)，里面写得很清楚，b站上也有教学视频。

off-policy和on-policy

$\color{red}{off-policy}$ ：更新策略和自己的行动不一致，典型的又Qlearning，Qlearning更新的时候是拿 $\color{red}{Q值最大}$ 的下个状态来更新当前状态的Q值的，当前状态则采取随机策略来选取动作。
$\color{red}{on-policy}$ ：on-policy则是和off-policy相反的，典型的算法有sarsa算法。

强化学习&深度学习

强化学习算法运行的时候，程序都需要维护一张Q表，你的状态也多，可执行的动作越多，维护的表就越大，这会占去过多的内存，显然不合适。甚至有时状态是连续的，那维护Q表变得无法实现，这时我们希望有个函数，当我们输入状态行动的时候能够返回Q值，这就是Q表（值函数）的 $\color{red}{逼近函数}$ ，逼近函数可以分为 $\color{red}{参数逼近}$ 和 $\color{red}{非参数逼近}$ ，而参数逼近又可以分为 $\color{red}{线性参数}$ 和 $\color{red}{非线性参数}$ ，其中非线性参数逼近就可以选我们熟悉的神经网络。这就是强化学习和深度学习的结合。

逼近函数选择神经网络，则需要更新神经网络，更新的方法其实就是一个监督学习的过程，数据标签：（s,R）其中s为状态，R为回报（在MC中则是 $G_t$ ，在TD中则是 $R_{t+1}+\gamma Q_\pi(s_{t+1},a)$ ）。

一路没你

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
强化学习入门，分类及总结

自学强化学习，主要是看了网上大佬们写的一些文章，都是零零碎碎的强化学习的算法，所以这篇文章主要是总结我学的知识，可能知识点不是很全，后期慢慢补充吧，如果有理解错误也烦请指出。主要参考资料：知乎天津肉包子馅儿、莫烦、还有刘建平博客。概述如上图，强化学习就是智能体和环境交互的过程，是一个马尔科夫决策过程\color{red}{马尔科夫决策过程}马尔科夫决策过程（当前状态仅与上个状态和所做的...
复制链接

扫一扫