model-free强化学习-Policy-based

最新推荐文章于 2024-08-10 11:59:31 发布

winycg

最新推荐文章于 2024-08-10 11:59:31 发布

阅读量583

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/winycg/article/details/90356135

版权

强化学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Policy-based

将神经网络作为一个Actor，输入是观测observation，表示形式是一个向量或一个矩阵。输出是每个行为对应的概率，类似于分类问题中的判断类别，会对应每个类别有个概率，如下如所示：
在这里插入图片描述
考虑一个episode $\tau=\{s_{1},a_{1}, r_{1},s_{2},a_{2}, r_{2},...,s_{T},a_{T}, r_{T},\}$ 。对于参数为 $\theta$ 的Actor，产生这个episode的概率为：
$p(\tau|\theta)=p(s_{1})p(a_{1}|s_{1},\theta)p(r_{1},s_{2}|s_{1},a_{1})p(a_{2}|s_{2},\theta)p(r_{2},s_{3}|s_{2},a_{2})...\\ =p(s_{1})\prod_{t=1}^{T_{n}}p(a_{t}|s_{t},\theta)p(r_{t},s_{t+1}|s_{t},a_{t})\ \ \ \ (1)$
其中 $p(s_{1})$ 和 $p(r_{t},s_{t+1}|s_{t},a_{t})$ 部分不是由actor决定的， $p(a_{t}|s_{t},\theta)$ 是actor对于属于观测 $s_{t}$ 所预测的结果为 $a_{t}$ 的概率。对于这个 $\tau$ ，产生的奖励值为 $R(\tau)=\sum_{t=1}^{T_{n}}r_{t}$
使用actor玩 $N$ 次游戏，也就是在 $p(\tau|\theta)$ 分布下 $N$ 次抽样 $\tau$ ,得到 $N$ 个episode $\{\tau^{1},\tau^{2},...,\tau^{N}\}$ ,得到的奖励的期望为：
$\bar{R}_{\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)$
我们的优化目标是最大化期望奖励：
$\theta^{*}=\arg\max_{\theta} \bar{R}_{\theta}$
求解梯度：
$\nabla\bar{R}_{\theta}=\sum_{\tau}R(\tau)\nabla p(\tau|\theta)=\sum_{\tau}R(\tau)p(\tau|\theta)\frac{\nabla p(\tau|\theta)}{p(\tau|\theta)}\\ =\sum_{\tau}R(\tau)p(\tau|\theta)\nabla \log p(\tau|\theta)\approx \frac{1}{N}\sum_{i=1}^{N} R(\tau^{n})\nabla \log p(\tau^{n}|\theta)\\ = \frac{1}{N}\sum_{n=1}^{N} R(\tau^{n})\nabla \log[ p(s_{1}^{n})\prod_{t=1}^{T}p(a_{t}^{n}|s_{t}^{n},\theta)p(r_{t}^{n},s_{t+1}^{n}|s_{t}^{n},a_{t}^{n})]\\ = \frac{1}{N}\sum_{n=1}^{N} R(\tau^{n}) \sum_{t=1}^{T}\nabla\log p(a_{t}^{n}|s_{t}^{n},\theta) \ \# ignore\ the\ term\ not\ related\ \theta\\ = \frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T}R(\tau^{n}) \nabla\log p(a_{t}^{n}|s_{t}^{n},\theta)$
使用梯度提升更新参数： $\theta \leftarrow \theta+\eta\bar{R_{\theta}}$

Actor参数 $\theta$ 的优化可以从分类的角度去优化。
将每一个 $\tau$ 分解产生多个 $(s, a)$ ，每一个 $(s, a)$ 都是一个训练数据。
在这里插入图片描述

最大化优化交叉熵： $\max \sum_{i=1}^{3}\hat{y_{i}}\log{y_{i}}$
对于一个数据 $(s, a = l e f t)$ ,对应的交叉熵为： $\log p(a=left|s)$
此时对于 $N$ 次 $\tau$ ，对应的梯度为：
$\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}\nabla \log p(a^{n}_{t}|s^{n}_{t},\theta)$
每一个训练数据要通过 $R(\tau)$ 进行加权，因为奖励大的数据占的权重也大，经过加权之后的误差与上面同奖励得到的梯度一致了
$\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}R(\tau^{n})\nabla \log p(a^{n}_{t}|s^{n}_{t},\theta)$
$R(\tau)$ 通常都是正数，为了防止某些动作没有被抽样到，减去一个噪声常数 $b$ ,确保模型能够发生各种行为：
$\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}(R(\tau^{n})-b)\nabla \log p(a^{n}_{t}|s^{n}_{t},\theta)$
如果一开始模型抽样到的所有行为都会产生了正反馈调节，那么这些行为后续出现的概率将增大，其他行为的概率将会减小，进而使得接下来的更新更偏向于上一轮抽样到的样本。减去一个噪声常数确保了Actor对一些奖励小的行为进行抑制，确保大的奖励才能更新，消除了不公平现象。