迁移强化学习论文笔记（一）（Successor Features）

总是摸鱼的猫

于 2024-04-14 12:41:35 发布

阅读量1k

点赞数 11

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_54255111/article/details/137741809

版权

迁移强化学习论文笔记（一）（Successor Features）

一.Background and problem formulation

$\equiv(\mathcal{S}, \mathcal{A}, p, R, \gamma)$

$\cal S$ :状态空间

$\cal A$ ：行动空间

$p$ : $p(\cdot\mid s_t,a_t)$ 状态转移概率

$R$ : $R(s_t,a_t,s_{t+1})$ 奖励

二.Successor features

假设奖励函数可以写为
$r\left(s, a, s^{\prime}\right)=\boldsymbol{\phi}\left(s, a, s^{\prime}\right)^{\top} \mathbf{w},$
其中 $\boldsymbol\phi(s,a,s')$ 是d维向量， $\mathbf w$ 是对应的权重。利用这种形式，我们有以下结论（定义 $\boldsymbol \phi_{t+1}=\boldsymbol \phi(s_t,a_t,s_{t+1})$ ）
$\begin{aligned} Q^\pi(s, a) & =\mathrm{E}^\pi\left[r_{t+1}+\gamma r_{t+2}+\ldots \mid S_t=s, A_t=a\right] \\ & =\mathrm{E}^\pi\left[\boldsymbol{\phi}_{t+1}^{\top} \mathbf{w}+\gamma \boldsymbol{\phi}_{t+2}^{\top} \mathbf{w}+\ldots \mid S_t=s, A_t=a\right] \\ & =\mathrm{E}^\pi\left[\sum_{i=t}^{\infty} \gamma^{i-t} \boldsymbol{\phi}_{i+1} \mid S_t=s, A_t=a\right]^{\top} \mathbf{w}=\boldsymbol{\psi}^\pi(s, a)^{\top} \mathbf{w} . \end{aligned}$
$\boldsymbol \psi^{\pi}(s,a)$ 是在策略 $\pi$ 下 $(s, a)$ 的Successor Features（SFs）

由定义知 $\boldsymbol \psi^{\pi}(s,a)=\mathrm E^{\pi}[\boldsymbol{\phi}_{t+1}+\gamma \boldsymbol{\phi}_{t+2}+\gamma^2\boldsymbol{\phi}_{t+3}+\cdots\mid S_t=s,A_t=a]$ 可得如下贝尔曼公式
$\begin{aligned} \boldsymbol \psi^{\pi}(s,a)&=\mathrm E^{\pi}[\boldsymbol{\phi}_{t+1}+\gamma \boldsymbol{\phi}_{t+2}+\gamma^2\boldsymbol{\phi}_{t+3}+\cdots\mid S_t=s,A_t=a]\\ &=\mathrm{E}_{S_{t+1},A_{t+1}}[\boldsymbol{\phi}_{t+1}+\boldsymbol \psi^{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\text{如果采取确定策略}\pi\\ &=\boldsymbol \phi_{t+1}(s,a)+\mathrm E_{S_{t+1}}[\boldsymbol \psi^{\pi}(S_{t+1},\pi(S_{t+1}))\mid S_t=s,A_t=a] \end{aligned}$
利用上式即可迭代求解 $\boldsymbol \psi^{\pi}(s,a)$ ,而对于 $\mathbf w$ 的求解则是一个有监督学习问题很多机器学习算法都可进行。

这样对于不同的任务只要求解出不同的 $\mathbf w$ 即可。

三.Generalized policy improvement

作者在论文中还证明了迁移强化学习的泛化误差界

Theorem 1. (Generalized Policy Improvement) Let $\pi_1, \pi_2, \ldots, \pi_n$ be $n$ decision policies and let $\tilde{Q}^{\pi_1}, \tilde{Q}^{\pi_2}, \ldots, \tilde{Q}^{\pi_n}$ be approximations of their respective action-value functions such that
$\left|Q^{\pi_i}(s, a)-\tilde{Q}^{\pi_i}(s, a)\right| \leq \epsilon \text { for all } s \in \mathcal{S}, a \in \mathcal{A} \text {, and } i \in\{1,2, \ldots, n\} \text {. }$

Define
$\pi(s) \in \underset{a}{\operatorname{argmax}} \max _i \tilde{Q}^{\pi_i}(s, a) .$

Then,
$Q^\pi(s, a) \geq \max _i Q^{\pi_i}(s, a)-\frac{2}{1-\gamma} \epsilon$
for any $\in \mathcal{S}$ and $\in \mathcal{A}$ , where $Q^\pi$ is the action-value function of $\pi$ .

proof:为简化符号，定义
$Q_{max}(s,a)=\text{max}_{i}Q^{\pi_i}(s,a)(在策略\pi_{i}中的最优动作价值函数)\\ \tilde{Q}_{max}(s,a)=\text{max}_{i}\tilde{Q^{\pi_{i}}}(s,a)(在策略\pi_{i}中最优动作价值函数的估计值)$
借助以上符号我们有如下不等式
$\left|Q_{\max }(s, a)-\tilde{Q}_{\max }(s, a)\right|=\left|\max _i Q^{\pi_i}(s, a)-\max _i \tilde{Q}^{\pi_i}(s, a)\right| \leq \max _i\left|Q^{\pi_i}(s, a)-\tilde{Q}^{\pi_i}(s, a)\right| \leq \epsilon .$
于是我们可得
$Q_{\max }(s, a)-\epsilon \leq\tilde{Q}_{\max }(s, a)$
借助贝尔曼算子 $T^{\pi}$ ,其中
$T^{\pi}f(s,a)=r(s,a)+\gamma\mathrm E_{s'\sim p(s'\mid s,a)}[V(s')]\\ V(s')=\mathrm E_{a\sim \pi(a\mid s')}[f(s',a)]\\ r(s,a)=\mathrm E_{s'\sim p(s'\mid s,a)}[r(s,a,s')]$
因我们采用确定策略 $\pi$ (在所有策略中选取能使得动作价值最大的动作)， $V(s')=f(s',\pi(s'))$

对于任意 $(s,a)\in \cal S \times \cal A$ 和任意策略 $\pi_{i}$ 我们都有下式成立
$\begin{aligned} T^\pi \tilde{Q}_{\max }(s, a) & =r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s,a\right) \tilde{Q}_{\max }\left(s^{\prime}, \pi\left(s^{\prime}\right)\right) \\ & =r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \max _b \tilde{Q}_{\max }\left(s^{\prime}, b\right) \\ & \geq r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \max _b Q_{\max }\left(s^{\prime}, b\right)-\gamma \epsilon \\ & \geq r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) Q_{\max }\left(s^{\prime}, \pi_i\left(s^{\prime}\right)\right)-\gamma \epsilon \\ & \geq r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) Q^{\pi_i}\left(s^{\prime}, \pi_i\left(s^{\prime}\right)\right)-\gamma \epsilon \\ & =T^{\pi_i} Q^{\pi_i}(s, a)-\gamma \epsilon \\ & =Q^{\pi_i}(s, a)-\gamma \epsilon . \end{aligned}$
又因 $T^\pi \tilde{Q}_{\max }(s, a)\geq Q^{\pi_i}(s, a)-\gamma \epsilon$ 对任意策略成立
$\begin{aligned} T^\pi \tilde{Q}_{\max }(s, a)&\geq Q^{\pi_i}(s, a)-\gamma \epsilon \qquad for \forall \pi_{i}\\ &\geq \text{max}_{i}Q^{\pi_{i}}-\gamma \epsilon\\ &\geq \tilde{Q}_{\max }(s, a)-\gamma-\gamma\epsilon \end{aligned}$
为得出最终结论。我们还需要证明以下事实
$\begin{aligned} T^{\pi}(f(s,a)+c)&=r(s,a)+\gamma\mathrm E_{s'\sim p(s'\mid s,a)}[f(s',\pi(s'))+c]\\ &=r(s,a)+\gamma\mathrm E_{s'\sim p(s'\mid s,a)}[f(s',\pi(s'))]+\gamma\cdot c\\ &=T^{\pi}(f(s,a))+\gamma\cdot c \end{aligned}$
于是我们可知
$\begin{aligned} T^{\pi}\tilde{Q}_{\max }(s, a)&\geq \tilde{Q}_{\max }(s, a)-(1+\gamma)\epsilon\\ T^{\pi}(T^{\pi}\tilde{Q}_{\max }(s, a))&\geq T^{\pi}\tilde{Q}_{\max }(s, a)-\gamma(1+\gamma)\epsilon\\ \vdots\\ (T^{\pi})^{k}(\tilde{Q}_{\max }(s, a))&\geq (T^{\pi})^{k-1}-\gamma^{k-1}(1+\gamma)\epsilon \end{aligned}$
将上式连续相加，且当 $k$ 趋于无穷时可知
$\begin{aligned} Q^\pi(s, a) & =\lim _{k \rightarrow \infty}\left(T^\pi\right)^k \tilde{Q}_{\max }(s, a) \\ & \geq \tilde{Q}_{\max }(s, a)-\frac{1+\gamma}{1-\gamma} \epsilon \\ & \geq Q_{\max }(s, a)-\epsilon-\frac{1+\gamma}{1-\gamma} \epsilon\\ & = \max _i Q^{\pi_i}(s, a)-\frac{2}{1-\gamma} \epsilon \end{aligned}$
证毕

想要证明最后误差界，我们还需借助以下引理

Lemma 1. Let $\delta_{i j}=\max _{s, a}\left|r_i(s, a)-r_j(s, a)\right|$ . Then,
$Q_i^{\pi_i^*}(s, a)-Q_i^{\pi_j^*}(s, a) \leq \frac{2 \delta_{i j}}{1-\gamma} .$

proof为简化记号，令 $Q_i^j(s, a) \equiv Q_i^{\pi_j^*}(s, a)$ .
$\begin{aligned} Q_i^i(s, a)-Q_i^j(s, a) & =Q_i^i(s, a)-Q_j^j(s, a)+Q_j^j(s, a)-Q_i^j(s, a) \\ & \leq\left|Q_i^i(s, a)-Q_j^j(s, a)\right|+\left|Q_j^j(s, a)-Q_i^j(s, a)\right| . \end{aligned}$
令 $\Delta_{i j}=\max _{s, a}\left|Q_i^i(s, a)-Q_j^j(s, a)\right|$ .
$\begin{aligned} \left|Q_i^i(s, a)-Q_j^j(s, a)\right| & =\left|r_i(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \max _b Q_i^i\left(s^{\prime}, b\right)-r_j(s, a)-\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \max _b Q_j^j\left(s^{\prime}, b\right)\right| \\ & =\left|r_i(s, a)-r_j(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left(\max _b Q_i^i\left(s^{\prime}, b\right)-\max _b Q_j^j\left(s^{\prime}, b\right)\right)\right| \\ & \leq\left|r_i(s, a)-r_j(s, a)\right|+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left|\max _b Q_i^i\left(s^{\prime}, b\right)-\max _b Q_j^j\left(s^{\prime}, b\right)\right| \\ & \leq\left|r_i(s, a)-r_j(s, a)\right|+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \max _b\left|Q_i^i\left(s^{\prime}, b\right)-Q_j^j\left(s^{\prime}, b\right)\right| \\ & \leq \delta_{i j}+\gamma \Delta_{i j} . \end{aligned}$

从上式中可知
$\Delta_{i j} \leq \frac{1}{1-\gamma} \delta_{i j} .$

定义 $\Delta_{i j}^{\prime}=$ $\max _{s, a}\left|Q_i^i(s, a)-Q_i^j(s, a)\right|$ .
$\begin{aligned} \left|Q_j^j(s, a)-Q_i^j(s, a)\right| & =\left|r_j(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) Q_j^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)-r_i(s, a)-\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) Q_i^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)\right| \\ & =\left|r_i(s, a)-r_j(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left(Q_j^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)-Q_i^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)\right)\right| \\ & \leq\left|r_i(s, a)-r_j(s, a)\right|+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right)\left|Q_j^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)-Q_i^j\left(s^{\prime}, \pi_j^*\left(s^{\prime}\right)\right)\right| \\ & \leq \delta_{i j}+\gamma \Delta_{i j}^{\prime} . \end{aligned}$

同样可知
$\Delta_{i j}^{\prime} \leq \frac{1}{1-\gamma} \delta_{i j} .$

证毕

Theorem 2. Let $M_i \in \mathcal{M}^\phi$ and let $Q_i^{\pi_j^*}$ be the value function of an optimal policy of $M_j \in \mathcal{M}^\phi$ when executed in $M_i$ . Given the set $\left\{\tilde{Q}_i^{\pi_1^*}, \tilde{Q}_i^{\pi_2^*}, \ldots, \tilde{Q}_i^{\pi_n^*}\right\}$ such that
$\left|Q_i^{\pi_j^*}(s, a)-\tilde{Q}_i^{\pi_j^*}(s, a)\right| \leq \epsilon \text { for all } s \in S, a \in A \text {, and } j \in\{1,2, \ldots, n\},$
let
$\pi(s) \in \underset{a}{\operatorname{argmax}} \max _j \tilde{Q}_i^{\pi_j^*}(s, a) .$

Finally, let $\phi_{\max }=\max _{s, a}\|\phi(s, a)\|$ , where $\|\cdot\|$ is the norm induced by the inner product adopted. Then,
$Q_i^*(s, a)-Q_i^\pi(s, a) \leq \frac{2}{1-\gamma}\left(\phi_{\max } \min _j\left\|\mathbf{w}_i-\mathbf{w}_j\right\|+\epsilon\right) .$

proof:
$\begin{aligned} Q_i^*(s, a)-Q_i^\pi(s, a) & \leq Q_i^*(s, a)-Q_i^{\pi_j^*}(s, a)+\frac{2}{1-\gamma} \epsilon \\ & \leq \frac{2}{1-\gamma} \max _{s, a}\left|r_i(s, a)-r_j(s, a)\right|+\frac{2}{1-\gamma} \epsilon \\ & =\frac{2}{1-\gamma} \max _{s, a}\left|\phi(s, a)^{\top} \mathbf{w}_i-\phi(s, a)^{\top} \mathbf{w}_j\right|+\frac{2}{1-\gamma} \epsilon \\ & =\frac{2}{1-\gamma} \max _{s, a}\left|\phi(s, a)^{\top}\left(\mathbf{w}_i-\mathbf{w}_j\right)\right|+\frac{2}{1-\gamma} \epsilon \\ & \leq \frac{2}{1-\gamma} \max _{s, a}\|\phi(s, a)\|\left\|\mathbf{w}_i-\mathbf{w}_j\right\|+\frac{2}{1-\gamma} \epsilon \\ & =\frac{2 \phi_{\max }}{1-\gamma}\left\|\mathbf{w}_i-\mathbf{w}_j\right\|+\frac{2}{1-\gamma} \epsilon . \end{aligned}$