MaxEnt框架下的RL

最新推荐文章于 2024-06-16 09:30:36 发布

zz_ytj

最新推荐文章于 2024-06-16 09:30:36 发布

阅读量450

点赞数 2

分类专栏： MaxEnt RL

本文链接：https://blog.csdn.net/zz_ytj/article/details/105343591

版权

MaxEnt RL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

MaxEnt的一些推导和理解

策略概率分布最大熵的角度
采样轨迹分布匹配的角度
MaxEnt RL框架下Bellman等式的推导
SAC中的一些注意点

策略概率分布最大熵的角度

从策略概率分布最大熵的角度理解，我们对最优策略的要求不仅仅是最大化长期奖励 $\eta(\pi)=\mathbb{E}_{\tau}\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\right]$ ；同时要求策略随机性尽可能的大，也就是策略的熵 $\mathcal{H}(\pi)$ 尽可能大：
$\begin{aligned} J(\pi)&=\sum_{t=0}^\infty\mathbb{E}_{(s_t,a_t)\sim\rho(\pi)}\left[ r(s_t,a_t)+\alpha\mathcal{H}(\cdot|s_t)\right]\\ &=\mathbb{E}_\tau\left[\sum^\infty_{t=0}r(s_t,a_t)-\alpha\log\pi(\cdot|s_t)\right] \end{aligned}$ 这里没有考虑折扣系数 $\gamma$ 。最终的目标是 $\max_\pi \; J(\pi)$

采样轨迹分布匹配的角度

给定策略 $\pi(a|s)$ ，那么根据这个策略进行交互采样得到不同的采样轨迹 $\tau=(s_1,a_1,s_2,a_2,\cdots)$ 的概率分布可以表示为：
$q(\tau)=p_1(s_1)\prod_{t=1}p(s_{t+1}|s_t,a_t)\pi(a_t|s_t)$ 假如存在一个确定的奖励函数 $r(s_t, a_t)$ （通常来说MDP存在这样的函数，但是不知道具体的形式，只是交互过程能采样得到采样的奖励值）。那么MaxEnt框架下理想的目标轨迹分布是与采样过程的奖励值的指数函数值成正比的，即：
$p(\tau)=\frac{1}{Z}p_1(s_1)\prod_{t=1}p(s_{t+1}|s_t,a_t)e^{r(s_t, a_t)}$ 其中 $Z=\int p_1(s_1)\prod_{t=1}p(s_{t+1}|s_t,a_t)e^{r(s_t, a_t)}d\tau$ 是正则项；那么MaxEnt RL的目标就是尽可能的使策略下的轨迹分布更加接近目标轨迹分布，一般用KL散度度量的话目标函数为：
$\begin{aligned} &\quad \max_\pi\; -D_{KL}(q(\tau)||p(\tau))\\ &=\max_\pi\;-\int q(\tau)\log\frac{\prod_{t=1}\pi(a_t|s_t)}{\prod_{t=1}e^{r(s_t,a_t)}}d\tau-\log Z\\ &=\max_\pi\;\mathbb{E}_{\tau\sim q(\tau)}\left[\sum_{t=1}r(s_t,a_t)-\log\pi(a_t|s_t)\right] \end{aligned}$ 这里最后忽略了 $\log Z$ ，因为常数，可以看到和从策略最大熵角度的公式推导是一样的。

MaxEnt RL框架下Bellman等式的推导

和标准的Bellman等式类似，MaxEnt RL下也满足类似的Bellman等式：

首先是根据上面的MaxEnt RL的目标函数 $J(\pi)$ 可以类比定义soft值函数（以下均默认 $\alpha=1$ ）：
$V^\pi_{soft}(s_t=s)=\mathbb{E}_\tau\left[\sum_{T=t}^\infty\gamma^{T-t}(r(s_T,a_T)+\mathcal{H}(\cdot|s_T)) |s_t = s\right]$ 这里注意的是下标 $T$ 是变量， $t$ 是常量。这里用的是熵 $\mathcal{H}$ 不是 $\log \pi(\cdot|s)$ 这是把关于 $a_T$ 的期望写进去了。最重要的这里考虑折扣奖励的同时策略熵值也乘以折扣系数。（参见SAC原文Appendix.A的说明）
同理soft动作值函数也可定义并进一步改写：
$\begin{aligned} Q^\pi_{soft}(s_t=s,a_t=a)&=\mathbb{E}\tau\left[r(s_t,a_t)+\gamma\sum_{T=t+1}^\infty\gamma^{T-t-1}(r(s_T,a_T)+\mathcal{H}(\cdot|s_T))|s_t=s,a_t=a\right]\\ &=r(s_t,a_t)+\gamma T^{s'}_{s,a}V^\pi_{soft}(s_{t+1}=s') \end{aligned}$ 这里因为 $s_t,a_t$ 都是已知的，所以第一行的熵值是从 $t + 1$ 开始算起的。所以上式其实就是MaxEnt下修正后的Bellman算子：
$\mathcal{T}^\pi Q^\pi_{soft}\triangleq r(s_t,a_t)+\gamma \mathbb{E}_{s_{t+1}}\left[V^\pi_{soft}(s_{t+1})\right]$
同样的 $V^\pi_{soft}$ 也可以改写为由 $Q^\pi_{soft}$ 表示的等式：
$\begin{aligned} V^\pi_{soft}(s_t=s)&=\mathbb{E}_\tau\left[\sum_{T=t}^\infty\gamma^{T-t}(r(s_T,a_T)+\mathcal{H}(\cdot|s_T)) |s_t = s\right]\\ &=\mathbb{E}_\tau\left[\sum_{T=t}^\infty\gamma^{T-t}r(s_T,a_T)+\sum^\infty_{T=t+1}\gamma^{T-t}\mathcal{H}(\cdot|s_T)+\mathcal{H}(\cdot|s_t) |s_t = s\right]\\ &=\mathbb{E}_\tau\left[r(s_t,a_t)+\gamma\sum_{T=t+1}^\infty\gamma^{T-t-1}(r(s_T,a_T)+\mathcal{H}(\cdot|s_T))+\mathcal{H}(\cdot|s_t) |s_t = s\right]\\ &=\mathbb{E}_\tau\left[Q^\pi_{soft}(s_t,a_t)+\mathcal{H}(\cdot|s_t) |s_t = s\right]\\ &=\mathbb{E}_{a_t}\left[Q^\pi_{soft}(s_t,a_t)-\log\pi(\cdot|s_t)|s_t=s\right] \end{aligned}$
将3中的等式带入2中有：
$\begin{aligned} Q^\pi_{soft}(s_t,a_t)&=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1},a_{t+1}}\left[Q^\pi_{soft}(s_{t+1},a_{t+1})-\log\pi(\cdot|s_{t+1})\right]\\ &=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}}\left[\mathcal{H}(\pi(\cdot|s_{t+1}))\right]+\gamma\mathbb{E}_{s_{t+1},a_{t+1}}\left[Q^\pi_{soft}(s_{t+1},a_{t+1})\right]\\ &=r^\pi_{soft}(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1},a_{t+1}}\left[Q^\pi_{soft}(s_{t+1},a_{t+1})\right]\\ \end{aligned}$ 可见上式就类似标准Bellman等式，不同的是修正奖励函数 $r^\pi_{soft}(s_t,a_t)\triangleq r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}}\left[\mathcal{H}(\pi(\cdot|s_{t+1}))\right]$

SAC中的一些注意点

同标准的bellman方程推导的TD算法一样，SAC就利用上面推导的soft Bellman方程来构建TD学习目标，同样用参数化函数估计器来近似值函数： $V^\pi_{soft}(s)\approx V_\psi(s),Q^\pi_{soft}\approx Q_\phi(s,a)$ ，那么根据上式soft Bellman方程有值函数 $V_\psi(s)$ 目标函数：
$J_V(\psi)=\mathbb{E}_{s\sim\mathcal{D}}\left[\frac{1}{2}\left(V_\psi(s)-\mathbb{E}_{a\sim\pi_\theta}\left[Q_\phi(s,a)-\log\pi_\theta(a|s)\right]\right)^2\right]$ 注意这里的动作 $a$ 重新从策略 $\pi_\theta$ 中采集，而不是使用transition样本中的值。而动作值函数的目标函数则为：
$\begin{aligned} J_Q(\phi)&=\mathbb{E}_{s,a\sim\mathcal{D}}\left[\frac{1}{2}\left(Q_\phi(s,a)-r(s,a)-\gamma \mathbb{E}_{s'|s,a}\left[V_\psi(s')\right]\right)^2\right]\\ &=\mathbb{E}_{s,a\sim\mathcal{D}}\left[\frac{1}{2}\left(Q_\phi(s,a)-r(s,a)-\gamma \mathbb{E}_{s'|s,a}\left[\mathbb{E}_{a'\sim\pi_\theta}\left[Q_\phi(s',a')-\log\pi_\theta(a'|s')\right]\right]\right)^2\right] \end{aligned}$ 这里 $s, a, r (s, a), s^{'}$ 均来自replaybuffer中的transition样本 $\langle s,a,r,s'$ ，而 $a^{'}$ 则来自当前策略的采样。第一行的目标是独立维护一个 $V_\psi$ 函数时的动作值函数目标， $a^{'}$ 的采样在上一步值函数求解时已经做了。第二行的目标函数是只维护动作值函数 $Q_\phi$ 时候的形式，可看到，和一般的Bellamn方程得到的TD error目标差了一个熵。在构造动作值函数的target时，需要采样 $a^{'}$ ，如果采样这个 $a^{'}$ 的策略和采样当前样本 $\langle s,a,r,s'\rangle$ 的策略不一致，那么就是off-policy模式，一致的话就是on-policy。SAC中因为从维护的replaybuffer中采样来更新 $Q_\phi$ ，所以采样策略是过去训练过程中的不同策略，而构造target的则是当前策略，所以是off-policy的。
还有一个容易迷惑的地方，就是策略更新的时候，其目标是最小化以下的KL散度：
$\begin{aligned} J_\pi(\theta)&=\mathbb{E}_{s\sim\mathcal{D}}\left[D_{KL}\left(\pi(a|s)\Vert\frac{\exp(Q_\phi(s,a))}{Z_\phi(s)}\right)\right]\\ &=\mathbb{E}_{s,a\sim\mathcal{D}}\left[\log\pi_\theta(a|s)-Q_\phi(s,a)\right] \end{aligned}$ 通常我们采用高斯策略，这里涉及到重采样技术，即 $a=f_\theta(s)=\mu_\theta(s)+\epsilon\cdot\sigma_\theta(s)$ ，同时 $\pi_\theta(a|s)$ 则代表是一个概率值，也与 $\theta$ 有关。带入上述目标中有：
$J_\pi(\theta)=\mathbb{E}_{s\sim\mathcal{D},\epsilon\sim\mathcal{N}}\left[\log\pi_\theta(f_\theta(s,\epsilon)|s)-Q_\phi(s,f_\theta(s,\epsilon))\right]$ 所以求到的时候一定注意 $f_\theta$ 和 $\pi_\theta$ 的区别，这里的第一项 $\log\pi_\theta(f_\theta(s,\epsilon)|s)$ 关于 $\theta$ 的导数有两条路径：
a. 是直接通过概率函数传递导数 $\pi_\theta(a|s)\rightarrow\theta$ ： $\nabla_\theta\log\pi_\theta(a|s)$ ;
b. 通过从 $\pi_\theta(a|s)\rightarrow a\rightarrow f_\theta(s,\epsilon)\rightarrow\theta$ ： $\nabla_a\log\pi_\theta(a|s)\nabla_\theta f_\theta(s,\epsilon)$ ;
第二项 $Q_\phi(s,f_\theta(s,\epsilon))$ 的导数只有一条路径 $Q_\phi(s,a)\rightarrow a\rightarrow f_\theta(s,\epsilon)\rightarrow\theta$ ： $\nabla_a Q(s,a)\nabla_\theta f_\theta(s,\epsilon)$ ，以上三项加起来就是：
$\nabla_\theta J_\pi(\theta)=\mathbb{E}_{s\sim\mathcal{D},\epsilon\sim\mathcal{N}}\left[\nabla_\theta\log\pi_\theta(a|s)+\left(\nabla_a\log\pi_\theta(a|s)-\nabla_a Q(s,a)\right)\nabla_\theta f_\theta(s,\epsilon)\right]$

zz_ytj

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MaxEnt框架下的RL

MaxEnt的一些推导和理解策略概率分布最大熵的角度采样轨迹分布匹配的角度MaxEnt RL框架下Bellman等式的推导策略概率分布最大熵的角度从策略概率分布最大熵的角度理解，我们对最优策略的要求不仅仅是最大化长期奖励η(π)=Eτ[∑t=0∞γtr(st,at)]\eta(\pi)=\mathbb{E}_{\tau}\left[\sum_{t=0}^\infty\gamma^tr(s_t,...
复制链接

扫一扫

专栏目录