A Closer Look at Invalid Action Masking in Policy Gradient Algorithms 论文阅读

最新推荐文章于 2024-09-14 09:59:20 发布

Turning-

最新推荐文章于 2024-09-14 09:59:20 发布

阅读量1.7k

点赞数 35

分类专栏：强化学习掩码策略梯度文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_55575757/article/details/136520680

版权

强化学习同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

掩码

1 篇文章 0 订阅

订阅专栏

策略梯度

1 篇文章 0 订阅

订阅专栏

强化学习无效动作的掩码处理

原文链接：http://arxiv.org/abs/2006.14171

简介

这篇文章证明了无效动作掩蔽可以看作是在计算动作概率分布时应用状态相关的可微函数来产生行为策略。接下来，设计了实验来比较无效动作掩饰和无效动作惩罚的性能。

无效动作惩罚：这是一种常见的方法，对无效动作给予负奖励，以便Agent学习通过不执行任何无效动作来最大化奖励。

我们的经验表明，当无效行动的空间扩大时，无效行动掩蔽的规模很大，Agent解决了我们想要的任务，而无效行动惩罚甚至难以探索第一个奖励。

然后，设计了实验来回答两个问题：

一旦用掩码训练Agent，去除无效操作掩码会发生什么？
当我们通过从屏蔽的动作概率分布中采样动作，但使用未屏蔽的动作概率分布来更新策略梯度时，当我们单纯地实施无效动作屏蔽时，Agent的性能如何？

背景

MDP过程【马尔科夫决策过程】
$(S,A,P,\rho_{0},r,\gamma,T)$

符号	含义
$S$	状态空间
$A$	离散动作空间
$P$	状态转移概率矩阵
$\rho_{0}$	初始状态分布
$r$	奖励函数
$\gamma$	衰减因子
$T$	过程的最大长度
$\pi_{\theta}$	策略，给定状态下的动作概率分布

优化目标就是最大化下面的式子：
$J=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1}\gamma^tr_t\right]$
$\tau$ ：经验数据/交互记录， $(s_0,a_0,r_0,\ldots,s_{T-1},a_{T-1},r_{T-1})$

也就是找到一个 $\theta$ ，使之对应的策略梯度 $\nabla_\theta J$ 最大，也就是梯度上升，让奖励最大化！
$\theta=\theta+\nabla_\theta J$
以下是早期对于策略梯度的估计：
$\nabla_{\theta}J=\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t=0}^{T-1}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})G_{t}\right] \\ G_{t}=\sum_{k=0}^{\infty}\gamma^{k}r_{t+k}$

推不出来了！！！啊啊啊啊啊啊啊啊，感觉论文这一块写的很奇怪，可能是我水平不够，没看明白这个论文的公式，以下是个人推导过程。

推导如下：参考强化学习(九)–Policy Gradient推导过程 - 知乎 (zhihu.com)

针对公式（2），可以将 $\mathbb{E}_{\tau}[·]$ 理解为对交互记录的期望，因为策略的随机性会导致采样出不同的交互记录！理论上最大化的也要是其对应的期望值！

因此可以把式子（2）换为如下形式：
$J\left(\theta\right)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1}\gamma^tr_t\right]=\sum_{\tau}{P\left(\tau ;\theta\right)R\left(\tau\right)}$
$P\left(\tau ;\theta\right)$ ：表示交互记录 $\tau$ 出现的概率

$R\left(\tau\right)$ ：表示该条交互记录的奖励，也就是 $\sum_{t=0}^{T-1}\gamma^tr_t$

对 $J(\theta)$ ，进行求导：
$\begin{aligned} &\nabla_\theta J\left(\theta\right)=\nabla_\theta\sum_{\tau}P\left(\tau;\theta\right)R\left(\tau\right) \\ &=\sum_\tau\nabla_\theta P\left(\tau;\theta\right)R\left(\tau\right) \\ &=\sum_\tau\frac{P(\tau;\theta)}{P(\tau;\theta)}\nabla_\theta P\left(\tau;\theta\right)R\left(\tau\right) \\ &=\sum_{\tau}P\left(\tau;\theta\right)\frac{\nabla_{\theta}P(\tau;\theta)}{P(\tau;\theta)}R(\tau) \\ &=\sum_{\tau}P\left(\tau;\theta\right)\nabla_{\theta}\log P\left(\tau;\theta\right)R\left(\tau\right) \end{aligned}$
上述推导的最后一步的详细解释如下【 $l o g$ 没有底数的时候就是 $l n$ 】：
$[log_ax]^{^{\prime}}=\frac1{xlna} \\ [log(u)]^{^{\prime}}=\frac1uu^{^{\prime}} \\ \nabla_{\theta}\log P\left(\tau;\theta\right)=\frac{\nabla_{\theta}P\left(\tau;\theta\right)}{P\left(\tau;\theta\right)}$
即现在要对 $\nabla_\theta J=\sum_{\tau}P\left(\tau;\theta\right)\nabla_{\theta}\log P\left(\tau;\theta\right)R\left(\tau\right)$ 进行下一步推导，先求解 $\nabla_{\theta}\log P\left(\tau;\theta\right)$

设某一条交互路径的概率可以写为：
$P\left(\tau^{(i)};\theta\right)=\prod_{t=0}^{T-1}P\left(s_{t+1}^{(i)}|s_{t}^{(i)},a_{t}^{(i)}\right)\cdot\pi_{\theta}\left(a_{t}^{(i)}|s_{t}^{(i)}\right)$
其求导如下，其中第二行到第三行是因为 $P\left(s_{t+1}^{(i)}|s_t^{(i)},u_t^{(i)}\right)$ 中无参数 $\theta$ ，因此可在求导过程中消掉：
$\begin{aligned} &\nabla_{\theta}\log P\left(\tau^{(i)};\theta\right)=\nabla_{\theta}\log\left[\prod_{t=0}^{T-1}P\left(s_{t+1}^{(i)}|s_{t}^{(i)},a_{t}^{(i)}\right)\cdot\pi_{\theta}\left(a_{t}^{(i)}|s_{t}^{(i)}\right)\right] \\ &=\nabla_\theta\left[\sum_{t=0}^{T-1}\log P\left(s_{t+1}^{(i)}|s_t^{(i)},a_t^{(i)}\right)+\sum_{t=0}^T\log\pi_\theta\left(a_t^{(i)}|s_t^{(i)}\right)\right] \\ &=\nabla_\theta\left[\sum_{t=0}^{T-1}\log\pi_\theta\left(a_t^{(i)}|s_t^{(i)}\right)\right] \\ &=\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta\left(a_t^{(i)}|s_t^{(i)}\right) \end{aligned}$

故策略梯度的式子可以写为：
$\nabla_\theta J=\mathbb{E}_{\tau}[\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta\left(a_t^{(i)}|s_t^{(i)}\right)* \sum_{t=0}^{T-1}\gamma^tr_t]$

无效动作的掩码

假设一个MDP过程为：

状态空间 $S：\{s_0,s_1\}$

动作空间 $A:\{a_0,a_1,a_2,a_3\}$

此时策略 $\pi_\theta$ 由向量 $\theta$ 来参数化， $\theta = [l_1,l_2,l_3,l_4]$

假设初始 $\theta=[1,1,1,1]$ ，故各个动作的采样概率 $\pi_\theta=[0.25,0.25,0.25,0.25]$

且无论为为什么动作，都可以让智能体从初始状态 $s_0$ 转移到末态 $s_1$ ，并得到1的奖励
$\begin{aligned} \pi_{\theta}(\cdot|s_{0})& =[\pi_{\theta}(a_{0}|s_{0}),\pi_{\theta}(a_{1}|s_{0}),\pi_{\theta}(a_{2}|s_{0}),\pi_{\theta}(a_{3}|s_{0})] \\ &=\mathrm{softmax}([l_{0},l_{1},l_{2},l_{3}]) \\ &=[0.25,0.25,0.25,0.25] \end{aligned}$
其中 $\pi_\theta(a_i|s_0)=\frac{\exp(l_i)}{\sum_j\exp(l_j)}$

根据策略梯度的推导结果，可以得知，该交互记录的策略梯度为：
$\nabla_{\theta}J=\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t=0}^{T-1}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})G_{t}\right]$
其中交互记录只有一条，假设采样的结果是动作 $a_0$ ，奖励大小为1

因此：
$\begin{aligned} \nabla_{\theta}J&=\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t=0}^{T-1}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})G_{t}\right]\\ &=\nabla_{\theta}\log\pi_{\theta}(a_{0}|s_{0})G_{0} \end{aligned}$
而对于 $\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$ ，由于是对 $\theta$ 求导，而 $\theta$ 是一个四维向量，因此，其求导结果为4*4矩阵，同时该矩阵的各个元素的取值为：
$(\nabla_\theta\log\text{softmax}(\theta)_j)_i=\begin{cases}(1-\frac{\exp(l_j)}{\sum_j\exp(l_j)})&\text{if }i=j\\\frac{-\exp(l_j)}{\sum_j\exp(l_j)}&\text{otherwise}\end{cases}$
故最终的策略梯度求解结果为 $\nabla_{\theta}J=[0.75,-0.25,-0.25,-0.25]$

而此时假设动作 $a_2$ 不能被采样，是一个无效动作，因此可以用一个大负数替换要屏蔽的操作的logits来实现！
$\begin{aligned} \pi_{\theta}^{\prime}(\cdot|s_{0})&=\mathrm{softmax}(mask([l_{0},l_{1},l_{2},l_{3}])) \\ &=\mathrm{softmax}([l_{0},l_{1},M,l_{3}]) \\ &=[\pi_{\theta}^{\prime}(a_{0}|s_{0}),\pi_{\theta}^{\prime}(a_{1}|s_{0}),\epsilon,\pi_{\theta}^{\prime}(a_{3}|s_{0})] \\ &=[0.33,0.33,0.0000,0.33] \end{aligned}$
故最后的策略梯度计算结果为：
$\begin{aligned} \nabla_{\theta}J& =\mathbb{E}_{\tau}\left[\nabla_{\theta}\sum_{t=0}^{T-1}\log\pi_{\theta}^{\prime}(a_{t}|s_{t})G_{t}\right] \\ &=\nabla_{\theta}\log\pi_{\theta}^{\prime}(a_{0}|s_{0})G_{0} \\ &=[0.67,-0.33,0.0000,-0.33] \end{aligned}$
上述例子可以有效说明，无效动作的掩码似乎不仅仅是“重新规范概率分布”，还可以使无效动作的logits相对应的梯度为零！

无效动作的掩码会生成有效的策略梯度

动作选择过程受到一个在 $\pi_\theta$ 之外的过程所影响，该过程用来计算掩码。因此，人们自然会想知道政策梯度定理是针对该情况要如何应用？

分析表明，无效动作的掩码过程可以看作是一个状态相关的可微函数，适用于 $\pi_{\theta}^{\prime}$ 的计算，因此无效动作策略可以看作是 $\pi_{\theta}^{\prime}$ 的策略梯度更新。

证明：假设s∈S是任意的，并将无效动作掩蔽的过程视为一个可微函数 $inv_s$ ，该函数被应用于由策略 $\pi_{\theta}^{\prime}$ 给定状态输出的Logits $l_s$ 。那么就有：
$\begin{aligned} \pi_{\theta}^{\prime}(\cdot|s)& =\text{softmax}(mask(l(s))) \\ mask(l(s))_i& \left.=\left\{\begin{aligned}&l_i&&\text{if }a_i\text{ is valid in }s\\&M&&\text{otherwise}\end{aligned}\right.\right. \end{aligned}$
显然，掩码对于logits中的元素来说要么是一个恒等函数，要么是常数函数。

【恒等函数即：输出=输入】

因为这两类函数是可微的，所以可导。因此， $\pi_{\theta}^{\prime}$ 对于参数 $\theta$ 是可微的，也就是说 $\begin{aligned}\frac{\partial\pi_\theta^{\prime}(a|s)}{\partial\theta}\end{aligned}$ 对于所有的 $a\in A,s\in S$ ，都满足策略梯度定理的假设！因此，无效操作策略是策略 $\pi_{\theta}^{\prime}$ 的策略梯度。

需要注意的是，掩码过程不是分段线性函数。如果绘制掩码过程，它要么是一个单位函数【恒等函数】，要么是常数函数，取决于状态 $s$ ，从-∞到+∞。因此，我们称掩码为状态相关的可微函数。

没有对后续实验部分进行记录

                                            自行去阅读原文吧！

引用阅读

https://zhuanlan.zhihu.com/p/445681092
hhttp://arxiv.org/abs/2006.14171
https://zhuanlan.zhihu.com/p/57285213

Turning-

关注

35
点赞
踩
45

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录