[paper reading] IMPALA: V-trace

hanjialeOK

已于 2022-07-13 17:33:50 修改

阅读量590

点赞数 2

分类专栏： Paper Reading 文章标签：强化学习

于 2022-07-13 15:53:00 首次发布

本文链接：https://blog.csdn.net/weixin_43742643/article/details/125498355

版权

Paper Reading 专栏收录该内容

7 篇文章

订阅专栏

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

https://arxiv.org/abs/1802.01561

IMPALA 原作者代码：https://github.com/deepmind/scala ble_agent

V-trace

考虑一个由策略 $\mu$ 产生的经验轨迹 $x_t, a_t, r_t)_{t=s}^{t=s+n}$ 。定以 n 步 V-trace 目标如下

$v_s\overset{def}{=} V(x_s) + \sum_{t=s}^{s+n-1} \gamma^{t-s} \left( \prod_{i=s}^{t-1} c_i \right) \delta_t V$

其中 $\delta_t V \overset{def}{=} \rho_t (r_t + \gamma V(x_{t+1}) - V(x_t))$ 是 TD 误差， $\rho_t \overset{def}{=} \min \left( \bar{\rho}, \frac{\pi(a_t|x_t)}{\mu(a_t|x_t)} \right)$ 和 $c_i \overset{def}{=} \min \left( \bar{\rho}, \frac{\pi(a_i|x_i)}{\mu(a_i|x_i)} \right)$ 是截断重要性采样，假设 $\bar{\rho} \geq \bar{c}$ 。 $s = t$ 的时候，注意 $\prod_{i=s}^{t-1} c_i=1$ 。

在完全 on-policy 情况下， $\rho_t=c_i=1$ ，因此上式可以写为

$\begin{aligned} v_s &= V(x_s) + \sum_{t=s}^{s+n-1} \gamma^{t-s} (r_t + \gamma V(x_{t+1}) - V(x_t)) \\ &= r_s + \gamma r_{s+1} + \gamma^2 r_{s+1} + \cdots + \gamma^{n-1} r_{s+n-1} + \gamma^n V(x_{s+n}) \end{aligned}$

这就是 on-policy 时的 n 步贝尔曼目标。这是 Retrace 所没有的特性。

注意，截断重要性采样中 $c_i$ 和 $\rho_t$ 的作用是不同的。

代码中 advantage 的计算：https://github.com/deepmind/scalable_agent/blob/master/vtrace.py#L275

GAE-Vtrace

首先计算 $gaeV_s$ ：

$\begin{cases}\begin{aligned} &gaeV_s &&= &&\delta_s + \gamma \rho_{s+1} \delta_{s+1} + \gamma^2 \rho_{s+1} \rho_{s+2} \delta_{s+2} + \cdots + \gamma^{n-1} \left( \prod_{i=s+1}^{s+n-1} \rho_i \right) \delta_{s+n-1} \\ &gaeV_{s+1} &&= &&\delta_{s+1} + \gamma \rho_{s+2} \delta_{s+2} + \cdots + \gamma^{n-2} \left( \prod_{i=s+2}^{s+n-1} \rho_i \right) \delta_{s+n-1} \\ &\cdots \\ &gaeV_{s+n-1} &&= &&\delta_{s+n-1} \end{aligned}\end{cases}$

然后，计算 $v_s$ ：

$\begin{cases}\begin{aligned} &v_s &&= &&\rho_s &&\cdot &&gaeV_s &&+ &&V_s \\ &v_{s+1} &&= &&\rho_{s+1} &&\cdot &&gaeV_{s+1} &&+ &&V_{s+1} \\ &\cdots \\ &v_{s+n-1} &&= &&\rho_{s+n-1} &&\cdot &&gaeV_{s+n-1} &&+ &&V_{s+n-1} \end{aligned}\end{cases}$

IMPALA 中计算 advantage 的方式为 $r_s + \gamma v_{s+1} - V_s$ ，我们进行一下化简：

$\begin{aligned} r_s + \gamma v_{s+1} - V_s &= r_s + \gamma (\rho_{s+1} \cdot gaeV_{s+1} + V_{s+1}) - V_s \\ &= \gamma \rho_{s+1} \cdot gaeV_{s+1} + (r_s + \gamma V_{s+1}-V_s) \\ &= \gamma \rho_{s+1} \cdot gaeV_{s+1} + \delta_s \\ &= gaeV_s \end{aligned}$