论文笔记--Unsupervised (Meta) RL

最新推荐文章于 2023-01-11 20:55:53 发布

zz_ytj

最新推荐文章于 2023-01-11 20:55:53 发布

阅读量525

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/zz_ytj/article/details/105835363

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

无监督的（元）强化学习总结

DIAYN
- Key Idea
- Formulation
UML
(Off-Policy) DADS
- Key Idea:
- - off-policy版本
  - Planning using skill-dynamic
DDL
- Key Idea:
- - distance evaluation
  - policy improvement

DIAYN

全名‘Diversity Is All You Need: Learning skills without a reward function’。关键词：learning skills without reward function; pretrained skills for downstream tasks; hierarchically to solve tasks;

一句话总结核心思想：通过无监督（无奖励信号）的方法学习有用的skills作为一种有效的预训练机制来克服RL中的探索和样本效率问题。

Key Idea

学习目标：由于未知reward function，目标不能再是传统的最大化累计奖励回报，而是要求学习的所有skills相互之间有区别性，同时所有skills共同探索大部分状态空间。具体来说，我们想训练一些skills，这些skills能覆盖绝大多数可能的行为（比如跑、跳、走，而不是单一动作）。这样针对一个任务时，如果’跑‘这个行为无用，那么其他skills下表现的行为，如“走”，“跳”等就和之前的行为具有差异性，因此可能更有用处。

注意：这里的skills的可判别性与最大化多样性是不同的。每一个skill对应一个隐条件策略 $\pi(a|s,z)$ ，隐变量 $z$ 就是skill的语义意义。轻微的状态上的差异就可以导致skills是可判别的（后面会说到，skill指定访问状态），却不能说明 $\pi(a|s,z)$ 是多样性的。所以我们的要学习的skills目标就是既可判别，又多样性。

Formulation

智能体的策略的学习可以分为两个阶段，DIAYN主要是无监督阶段学习有用的skills，使这些skills在有了task reward后的监督阶段能更容易地最大化累计奖励回报这一监督信号。

目标函数基于以下思想：

想让skill指定智能体访问的状态，这样不同的skills就访问不同的states，从而达到可判别性；
第一条中用states而不是actions判别skills，因为外部观察者看不到不影响环境的动作（状态不同肉眼可见，动作不同肉眼未必可见），也就无法判别动作是否不同，即skills是否不同；
为了提高探索性，同时促进skills的多样性，通过学习尽可能随机action的skills；

这样具备高熵（多样性）且具有可判别性的skills，不同的skills之间探索不同部分的状态空间，这样就避免由于动作随机性导致进入无法区分的状态。所以利用信息论概念和以上思想，目标函数满足：

最大化状态空间 $S$ 和skills的互信息： $I (S; Z)$ （针对上述第一条），也就是说我们可以从状态推断skill;
（针对上述第二条）最大化 $I (S; Z)$ 的同时，确保不是用动作来区分skills，（已知 $S$ 的条件下）最小化 $A$ 和skills之间的互信息： $I (A; Z ∣ S)$ ；
（针对上述第三条）通过最大熵策略强迫skills保持多样性，同时将所有skills $\pi(a|s,z)$ 关于先验 $p (z)$ 的期望看做一个混合策略 $\pi(a|s)=\mathbb{E}_{z\sim p(z)}[\pi (a|s,z)]$ ，那么通过最大化混合策略的熵 $\mathcal{H}[A|S]$ 来保证skills的多样性。

所以最终的目标公式化：
$\begin{aligned} \mathcal{F}(\theta)&=I(S;Z)+\mathcal{H}[A|S]-I(A;Z|S)\\ &=(\mathcal{H}[Z]-\mathcal{H}[Z|S])+\mathcal{H}[A|S]-(\mathcal{H}[A|S]-\mathcal{H}[A|S,Z])\\ &=\mathcal{H}[Z]-\mathcal{H}[Z|S]+\mathcal{H}[A|S,Z] \end{aligned}$
其中 $\theta$ 是策略参数。上式第一项要求先验 $p (Z)$ 的熵最大，取均匀分布保证熵最大；第二项要求条件熵 $\mathcal{H}[Z|S]$ 尽可能小，也就是说 $Z$ 和 $S$ 的相关性要大，已知 $S$ 的3条件下 $Z$ 的不确定性小，即给定状态容易推断skill；第三项则是保证skill策略的多样性，最大熵；由于里面涉及到 $p (z ∣ s)$ 不好计算，用一个推断网络 $q_\phi(z|s)$ 估计这个后验。那么得到目标函数的一个下界：
$\begin{aligned} \mathcal{F}(\theta)&=\mathcal{H}[Z]-\mathcal{H}[Z|S]+\mathcal{H}[A|S,Z]\\ &=\mathcal{H}[A|S,Z]+\mathbb{E}_{z\sim p(z),s\sim\pi(z)}[\log p(z|s)]-\mathbb{E}_{z\sim p(z)}[\log p(z)]\\ &\geq \mathcal{H}[A|S,Z]+\mathbb{E}_{z\sim p(z),s\sim\pi(z)}[\log q_\phi(z|s)-\log p(z)]=\mathcal{G}(\theta,\phi)\\ \end{aligned}$ 观察上式，第一项 $\mathcal{H}[A|S,Z]$ 就是策略熵，后面一项就可以看做是强化学习的伪奖励信号：
$r_z(s,a)=\log q_\phi(z|s)-\log p(z)$ 这样加上熵系数 $\alpha$ ，目标函数 $\mathcal{F}(\theta)$ 就是SAC算法的目标函数。所以原文就是使用SAC来学习skill。

UML

论文全名’Unsupervised Meta-Learning for Reinforcement Learning‘

一句话总结就是利用上面的DIAYN+MAML进行元学习，先用DIAYN学习判别器 $q_\phi$ ，然后利用多个不同的采样 $z$ 训练MAML的元策略。

(Off-Policy) DADS

第一篇论文全名’Dynamic-Aware Unsupervised Discovery of Skills‘.简称DADS，在此基础上作者提出一种off-policy版本的DADS，提高了学习效率。

Key Idea:

从DIAYN算法目标函数看，其实最后核心就是最大化一个互信息 $I (S; Z)$ ，和一个条件策略最大熵 $\mathcal{H}(A|S,Z)$ 。而条件策略最大熵可以放在SAC这种算法框架下解决。DADS关注的是第一部分互信息与状态转移矩阵model的联系。即：
$I (S^{'}; Z ∣ S)$ 与DIAYN中学习一个特定行为策略探索不同部分的状态空间不同，DADS是针对不同行为学习不同环境model，从而使每个特定行为只在一个小范围的状态空间执行动作。除了DIAYN中的skill策略 $\pi(a|s,z)$ ，这里还定义了一个’skill-dynamics‘： $q (s^{'} ∣ s, z)$ ，来预测给定真实模型 $p$ 和不同的skill情况下，从状态 $s$ 转移到 $s^{'}$ 的概率。
上述的互信息目标可以化简为：
$\begin{aligned} I(s';z|s)&=\mathcal{H}(z|s)-\mathcal{H}(z|s',s)\\ &=\mathcal{H}(s'|s)-\mathcal{H}(s'|s,z) \end{aligned}$ 这里面上面的变形理解为给定一个transition从 $s\rightarrow s'$ ，我们能知道多少关于 $z$ 的信息。下面的变形理解为最大化真实环境transition的多样性（ $\mathcal{H}(s'|s)$ ），同时最大化 $z$ 和 $s^{'}$ 的共享信息量（ $-\mathcal{H}(s'|z,s)$ ）。所以优化这个目标就可以看做是在给定skill隐变量 $z$ 的情况下，使得transition可预测；同时编码一个多样性的skill变量 $z$ （也即是transition多样性）。这里选择下面的化简，因为可以和skill-dynamic联系上，方便后面的model-based control。那么就可以进一步的化简得到目标互信息的变分下界：
$\begin{aligned} I(s';z|s)&=\mathbb{E}_{z,s,s'\sim p}\left[\log\frac{p(s'|s,z)}{p(s',s)}\right]\\ &\geq\mathbb{E}_{z,s,s'\sim p}\left[\log\frac{q_\phi(s'|s,z)}{p(s',s)}\right]\\ \end{aligned}$ 这里的联合分布 $p (z, s, s^{'}) = p (z) p (s ∣ z) p (s^{'} ∣ s, z)$ ，其中的 $p (s ∣ z)$ 是skill策略 $\pi(a|s,z)$ 下的稳态分布，而 $p(s'|s,z)=\int p(s'|s,a)\pi(a|s,z)da$ ，这个积分很难求，所以用一个变分函数 $q_\phi$ 来估计。
到这里就和DIAYN的优化类似了（DIAYN中的 $s$ 换成 $s^{'} ∣ s$ ），优化 $\phi$ 即最大化似然函数 $\mathbb{E}_{p(z,s,s')}[\log q_\phi(s'|s,z)]$ ；优化条件策略则构建一个伪奖励信号：
$r_z(s,a,s')=\log q_\phi(s'|s,z)-\log p(s'|s)$ 这里多了个不好计算的 $\log p(s'|s)$ ，所以对其进行估计： $p(s'|s)=\int p(s'|s,z)p(z|s)dz\approx\int q_\phi(s'|s,z)p(z)dz\approx\frac{1}{L}\sum^L_{i=1}q_\phi(s'|s,z_i)$ ，带入上式，有：
$r_z(s,a,s')=\log\frac{q_\phi(s'|s,z)}{\sum^L_{i=1}q_\phi(s'|s,z_i)}+\log L$ 到这里后面的东西就和DIYAN差不多了，训练的时候仍然使用最大熵策略。

off-policy版本

在此基础上作者在另一篇论文’Emergent Real-world Robotic Skills via Unsupervised Off-policy RL‘提出一种off-policy改进方法，大大提高训练效率和效果。其核心就是在训练skill-dynamic模型参数 $\phi$ 的时候引入off-policy数据，回顾优化的最大似然目标：
$\begin{aligned} J(q_\phi) &= \mathbb{E}_{z,s,s'\sim p}[\log q_\phi(s'|s,z)]\\ &=\int p(z)p(s|z)p(s'|s,z)\log q_\phi(s'|s,z)dzdsds'\\ &=\int p(z)p(s|z)\pi(a|s,z)p(s'|s,a)\log q_\phi(s'|s,z)dzdsds'\\ \end{aligned}$ 现在我们假设使用behavior policy的off-policy数据来训练这个目标函数，那么对应的联合分布可表示为 $p^{\pi_c}(z,s,s')=\int p(z)p_c(s|z)\pi_c(a|s,z)p(s'|s,a)da$ 那么上式改写为：
$\begin{aligned} J(q_\phi) &=\int p(z)p_c(s|z)\pi_c(a|s,z)p(s'|s,a)\frac{p(s|z)\pi(a|s,z)}{p_c(s|z)\pi_c(a|s,z)}\log q_\phi(s'|s,z)dzdsdads'\\ &=\mathbb{E}_{z,s,a,s'\sim p^{\pi_c}}\left[\frac{p(s|z)\pi(a|s,z)}{p_c(s|z)\pi_c(a|s,z)}\log q_\phi(s'|s,z)\right] \end{aligned}$ 利用重要性采样的方法使用off-policy数据，那么导数为：
$\begin{aligned} \nabla_\phi J(q_\phi) &=\mathbb{E}\left[\frac{p(s|z)\pi(a|s,z)}{p_c(s|z)\pi_c(a|s,z)}\nabla_\phi \log q_\phi(s'|s,z)\right]\\ &\simeq\frac{1}{B_q}\sum^{B_q}_{i=1}\left[\frac{\pi(a_i|s_i,z_i)}{\pi_c(a_i|s_i,z_i)}\nabla_\phi \log q_\phi(s'|s,z)\right]\\ &\simeq\frac{1}{B_q}\sum^{B_q}_{i=1}\left[w_i\nabla_\phi \log q_\phi(s'|s,z)\right]\\ \end{aligned}$ 这里忽略难解的 $\frac{p(s|z)}{p_c(s|z)}$ ，并且利用clipping系数 $w_i=clip(\frac{\pi(a_i|s_i,z_i)}{\pi_c(a_i|s_i,z_i)},\frac{1}{\alpha},\alpha)$ .

Planning using skill-dynamic

分层决策，上层用planning方法（CEM）规划出下一步的skill-dynamic，然后根据skill-dynamic对应的condition策略进行下层的动作选择。

DDL

论文全称’Dynamic Distance Learning for Semi-Supervised and Unsupervised skill discovery‘
仍然是无监督（直接的奖励信号）的强化学习，但实际上和DIAYN和DADS一样，仍然要学习一个奖励函数提供强化学习算法需要的奖励或反馈（强化）信号。

Key Idea:

只针对goal-reaching任务，学习一个dynamic distance function去生成有效的reward shaping代替人为设计的奖励函数。所以整个的算法可以分为两大部分，即Distance evaluation和Policy Improvement。

distance evaluation

实际上dynamic distance function $d^\pi_\psi(s,s')$ 是用来量化两个状态之间transition的步数（距离）的函数，那么这个函数模型的训练用一种自监督回归的方法来拟合数据。
首先定义一个和策略有关的dynamical distance $d^\pi(s_i, s_j)$ ，它代表在策略 $\pi$ 下从状态 $s_i$ 转移到 $s_j$ 的平均步数。在一个轨迹内两种状态之间的距离就定义为：
$d^\pi(s,s')=\mathbb{E}_{\pi\sim\pi|s_i=s,s_j=s',j\geq i}[\sum^{j-1}_{t=1}\gamma^{t-i}c(s_t, s_{t+1})]$ 这里其实也算是人为的设计状态之间距离定义，但不是直接设计距离函数。 $c(s_t,s_{t+1})$ 定义为二值奖励函数，如果满足条件 $s_t=s,s_{t+1}=s'$ 则距离为0，否则为1。通常在有限长度的轨迹中，选择 $\gamma=1$ ，那么上面的距离就是 $j - i$ 。
这里需要注意的几个点：这里定义的并不是真实的距离空间中距离，因为不满足三角不等式；同时直接是 $j - i$ 难道不考虑这之间还要连续的 $< s, s^{'} >$ 对吗？个人觉得可能是针对连续状态空间的话，这种情况基本不存在，所以就简化了。
有了这个距离定义的话就可以对每个轨迹中的状态对进行’标注‘，然后进行监督回归学习，目标函数：
$\mathcal{L}_d(\psi)=\frac{1}{2}=\mathbb{E}_{\pi\sim\rho_\pi,i\sim[0,T],j\sim[i,T]}\left[(d^\pi_{\psi}(s_i,s_j)-(j-i))^2\right]$ 由于距离函数是一个和策略有关的量，所以这种方法的一个劣势就是只能用on-policy数据进行训练距离函数，但是他只是用来生成奖励信号的，所以策略的学习仍然可以用off-policy的方法，所以并不会减慢学习。

policy improvement

定义参数化策略 $\pi_\phi$ ，以到达 $g$ 为目标，用上一步学到的距离函数作为奖励函数来优化策略。原则上可以利用贪婪法，一步一步的通过选择最小化距离函数的动作来逼急目标。但是这未免太信赖学习到的距离函数了。所以将距离看做负奖励，应用强化学习方法最小化到达目标路径的累计距离：
$\mathcal{L}_\pi(\phi)=\mathbb{E}_{\tau\sim\rho_\pi}\left[\sum^\infty_{t=0}\gamma^t d^\pi_\psi(s_t, g)\right]$ 文中作者提到使用的是确定型环境，并且使用累积距离的方法比单步贪婪法更好的效果。

zz_ytj

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
论文笔记--Unsupervised (Meta) RL

无监督的（元）强化学习总结DIAYNKey IdeaFormulationDIAYN全名‘Diversity Is All You Need: Learning skills without a reward function’。关键词：learning skills without reward function; pretrained skills for downstream tasks...
复制链接

扫一扫