强化学习论文笔记 (1)

最新推荐文章于 2022-03-11 14:22:08 发布

weixin_47560863

最新推荐文章于 2022-03-11 14:22:08 发布

阅读量205

点赞数 2

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_47560863/article/details/123232115

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

TRPO

摘要: 找到更新参数的方法使得期望效用不减(策略梯度若学习率选择不好更新后可能效用更低)
效用函数 $\eta(\pi)=E_{s0,s1...}(\sum_{t=0}^\infty\gamma^tR(s_t))$
引理: $\eta(\pi')=\eta(\pi)+E_{s,a\sim\pi'}(\sum_{t=0}^\infty\gamma^tA_\pi(s_t,a_t))$
- 其中 $\pi'$ 代表新策略、 $\pi$ 代表旧策略、 $A_\pi(s_t,a_t)$ 是旧策略下的优势函数、 $E_{s,a\sim\pi'}$ 代表动作取值服从新策略
- 直观理解: 优势函数代表第一步走 $a_t$ (此处 $a_t$ 服从 $\pi'$ )比第一步走a(a服从 $\pi$ )要多赚多少
- 所以 $\pi'$ 的期望效益= $\pi$ 的期望效益+ $\sum$ 第n步走 $a_t\sim\pi'$ 比第n步走 $a\sim\pi$ 要多赚多少
- 按PG思想可以改写为 : $\eta(\pi')=\eta(\pi)+\sum_s d_{\pi'}(s)\sum_a\pi'(a|s)A_\pi(s,a)$
- 其中 $d_\pi'(s)$ 代表在马可夫链稳定的条件下，以策略 $\pi'$ 进行游戏，状态s出现的概率
改进: $L_\pi(\pi')=\eta(\pi)+\sum_s d_{\pi}(s)\sum_a\pi'(a|s)A_\pi(s,a)$
- 把 $d_{\pi'}$ 改为 $d_\pi$ ，原因是我们没有 $\pi'$ ( $\pi'$ 代表更新后的策略)、且 $\pi$ 与 $\pi'$ 相差不大所以可近似
- 其中 $\begin{cases} L_{\theta_0}(\theta_0)=\eta(\theta_0)\\ \nabla L_{\theta_0}(\theta)|_{\theta=\theta_0}=\nabla\eta(\theta)|_{\theta=\theta_0}\\ \end{cases}$ ，在 $\theta$ -> $\theta_0$ 处成立，所以优化L等价于优化 $\eta(\pi')$
不等式: $\eta(\pi')\ge L_\pi(\pi')-C_{常数}\cdot D_{KL}^{max}(\pi,\pi')$
- 可以证明每回合 $M_i(\pi) = L_{\pi_i}(\pi)-C\cdot D_{KL}^{max}(\pi_i,\pi)$ 将使效用函数不减，即 $\eta(\pi_{i+1})-\eta(\pi_i) \ge 0$ ，证明如下
- $\eta(\pi_{i+1})\ge M_i(\pi_{i+1})$ 、 $\eta(\pi_{i})= M_i(\pi_{i})$ 、所以 $\eta(\pi_{i+1})-\eta(\pi_{i})\ge M_i(\pi_{i+1})-M_i(\pi_{i})\ge0$ 、第二个等号成立因为最大化后的 $M_i$ 肯定 $\ge$ 原 $M_i$
- 不直接优化 $\eta$ ，而从M下手，采用的是MM优化思想(参考网站2)
优化公式: $\begin{cases} maximize\space L_{\theta_{old}}\\ subject\space to\space \bar{D_{KL}}(\theta,\theta_{old})\le\delta \end{cases}$
- 上文给出理论上可行的优化方法(即最大化M)，但由于M存在常数项C，将导致每次更新步长很小，从MM优化思想来理解，常数项大导致M难以逼近 $\eta$ ，从而每次移动步长不大
- 因此我们需要限制 $D_{KL}^{max}$ 的大小，使得常数项不要太大
- 但求max需要遍历 $\theta$ 的所有状态空间(无法实现)，因此使用平均取代最大
MC实现: $\begin{cases} maximize\space E_{s\sim\theta_{old},a\sim q}(\frac{\pi_{\theta_{new}}(a|s)}{q(a|s)}Q_{\theta_{old}}(s,a))\\ subject\space to\space E_{s\sim\theta_{old}}({D_{KL}}(\theta_{old},\theta_{new}))\le\delta \end{cases}$
- 此部份用MC方法确定L表达式
- $L_\pi(\pi')=\eta(\pi)+\sum_s d_{\pi}(s)\sum_a\pi'(a|s)A_\pi(s,a)$
- 第一项是常数不管、 $\sum_s d_{\pi}(s)$ 可以换成 $E_{s\sim\theta_{old}}$ 、优势函数可以换成Q函数(A与Q差一个常数项可以不管)、 $\sum_a\pi'(a|s)Q_\pi(s,a)$ 经过服从q的重要性采样变为 $E_{a\sim q}(\frac{\pi_{\theta_{new}}(a|s)}{q(a|s)}Q_{\theta_{old}}(s,a))$
- 重要性采样: $E_{x\sim p}(f(x))=E_{x\sim q}(\frac{p(x)}{q(x)}f(x))$ (证明见网站6)
采样法
- single-path : 按照 $\pi_{\theta_{old}}$ 采样多个轨迹、用 $\sum\gamma^nR_n$ 计算Q函数值
- vine : 先踩多个轨迹、在指定n个点生成k个roll-out、大幅降低方差、适用于可reset环境
参考网站: 1 2 3 4 5 6

PPO

摘要: 数据可重复训练、是on-policy的policy-base算法
现有算法问题
- deep Q-learning (value-base): 难以处理连续动作空间
- vanilla (policy-base) : on-policy+MC 导致数据利用率极低
- TRPO (policy-base) : 复杂、不支持dropout, para-share等网络结构(为啥??)
TRPO改进版: $maximize\space E_s(\frac{\pi_{\theta_{new}}(a|s)}{\pi_{\theta_{old}}(a|s)}A_t-\beta\cdot KL(\pi_{\theta_{old}},\pi_{\theta_{new}}))$
- 把subject_to改为减号(惩罚项)、难以找到超参 $\beta$ 对于所有任务都有效、因此不建议采用
替代的效用函数
- 如果对r偏离1的距离没有限制，将引发过大的更新
- TRPO原本的函数 : $L^{CPI}(\theta)=E_t(\frac{\pi_{\theta_{new}}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t)$ 、梯度: $E_t(\frac{\pi_{\theta_{new}}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t\nabla\log p_{\theta_{new}}(a_t|s_t))$
- PPO版函数 : $L^{CLIP}(\theta)=E_s(min(r,g)\cdot A_t))$ 、其中 $r=\frac{\pi_{\theta_{new}}(a|s)}{\pi_{\theta_{old}}(a|s)}A_t$ 、 $g=\begin{cases}(1+\epsilon)A_t,\space A>0\\ (1-\epsilon)A_t,\space A<0\\ \end{cases}$
- 自适应KL惩罚 : $L^{KLPEN}(\theta)=E_s(rA_t-\beta\cdot KL(\theta, \theta'))$ 、当KL散度过大时减小 $\beta$ 、此法效果差
- 期望是对整个轨迹取，也就是若这个轨迹所采的点r跟1差带多，我就不用这个轨迹
AC版效用函数
- AC含有价值函数与策略函数，效用函数+误差构成loss_function
- $L=E_s(L^{CLIP}(\theta)-c_1 L^{VF}+c_2 S)$ 、其中 $L^{VF}$ 是基于 $TD_\lambda$ 的误差、S是交叉熵(提高搜索能力)
参考网站: 1 2

SAC

概述 : off-policy, maximum_entropy, automatically tune temperature
思路 :
- 本文解决两个问题 : sample-efficiency 与 hyper-parameter(temperature)
- on-policy算法sample-efficiency太差，需要使用off-policy。policy-base算法更新方式必为on-policy、因此此处需要使用Q-learning这个体系的算法以达到off-policy的目的
- soft Q-learning在连续动作空间表现不佳、因此需要引入SAC的方法
- 其中，在SAC方法使用了最大熵、这一惩罚项依赖于reward的大小、引入超参temperature以控制此项与原梯度的比率
相关工作
- actor-critic相关 : 基本都是用到on-policy更新方式、本文提出off-policy AC
- off-policy相关 : 虽然有actor与critic两个网络，但具体实现方式与AC彼此迭代更新思想不同。如DDPG把actor与critic的更新在一次反向传导中完成(梯度一路从critic传到actor)、如此强耦合导致训练的不稳定。又如soft-Q目标是先找到 $Q^*$ ，然后用 $Q^*$ 生成policy、并没有彼此迭代更新。
Maximum_entropy
- 形式 : $\pi^*=argmax_\pi\sum_t E(R_t+\alpha H(\pi_t))$ 、其中 $\alpha$ 是温度系数
- 好处 : 避免探索无用动作、多动作回报相似都可以探索
价值函数
- 更新形式 : $Q(s_t,a_t) = R(s_t,a_t) + \gamma Es_{_{t+1}}(V(s_{t+1}))$ 、可证明如此迭代能够收敛到 $Q^*$
- 其中 : $V(s_t) = E_{a_t}[\space Q(s_{t+1},a_{t+1})-\alpha \log(a_t|s_t)\space ]$
策略函数
- $\pi_{new}=argmax_{_{\pi'\in\Pi}} D_{KL} (\pi'(\cdot|s_t), \frac{\exp(\frac{1}{\alpha}Q^\pi_{old}(s_t,\cdot))}{Z^{\pi}_{old}})$
- 其中 $\pi'$ 是满足高斯分布的函数、 $\pi_{new}$ 是 $\Pi$ 中与 $\frac{\exp(\frac{1}{\alpha}Q^\pi_{old}(s_t,\cdot))}{Z^{\pi}_{old}}$ KL距离最接近的高斯函数
- 其中 $\frac{\exp(\frac{1}{\alpha}Q^\pi_{old}(s_t,\cdot))}{Z^{\pi}_{old}}$ 是利用policy_evaluation后的价值函数得到的基于能量的多峰策略分布(soft代表以e为底)、其中Z为归一化参数
- 可以证明 $Q^{\pi_{new}}\ge Q^{\pi_{old}}$ 、因此反复进行evaluation, improve可以收敛到最佳
损失函数
- $\begin{cases} J_Q(\theta)=E_{s,a}[Q(s_t,a_t)-R(s_t,a_t)-\gamma E_{s_{t+1}}[Q_{\bar\theta}(s_{t+1},a_{t+1})-\alpha\log\pi_\phi(a_{t+1}|s_{t+1})]]^2 \\ J_\pi(\phi)=E_{s,a}[\alpha\log\pi(a_t|s_t)-Q_\theta(s_t,a_t)+Z^\pi_{old}] \end{cases}$
- $\begin{cases} \nabla J_Q(\theta)=\nabla Q(s_t,a_t)[Q(s_t,a_t)-R(s_t,a_t)-\gamma Q_{\bar\theta}(s_{t+1},a_{t+1})+ \gamma\alpha \log\pi_\phi(a_{t+1}|s_{t+1})] \\ \nabla_\phi J_\pi(\phi)=\nabla_\phi \alpha\log\pi(a_t|s_t) - \nabla_f[Q_\theta(s_t,f_\phi)-\alpha\log\pi(f_\phi|s_t)]\nabla_\phi f_\phi(\epsilon,s) \end{cases}$
- 其中 $Q_{\bar\theta}$ 代表target网络、采取软更新，即 $Q_{t+1}=\gamma Q_t' + (1-\gamma)Q_t$
- 其中 $f_\phi(\epsilon,s)$ 代表采样函数， $\pi$ 网络输出 $\mu,\sigma$ ,还需要采样(将导致不可反向传播)，因此引入 $\epsilon$ (不可训练的随机变量)，令 $a=\mu+\epsilon\sigma$ 使反向传播可行，称为Re-parameterization技巧
- 其中用高斯分布近似基于能量的多峰分布是因为，tractable的分布族才能使用re-parameterize技巧追踪梯度，选高斯是因为简单
自适应 $\alpha$
- 奖励R与熵的比率会因为任务不同、策略升级而变化，需要自适应 $\alpha$
- 将 $max\space E(Q-\alpha\log\pi)$ 问题变为 $max\space E(r),\space s.t\space E(-\log\pi)>H_0$
类似拉格朗日乘子法
- 令 $h(\pi)=E(-\log\pi)-H_0$ , $f(\pi)=\begin{cases} E(R),\space h(\pi)\ge0 \\ -\infty,\space h(\pi)\le0 \end{cases}$
- 构造函数 : $L(\pi,\alpha) = f(\pi) + \alpha h(\pi)$
- 可以发现 : $f(\pi)=min_{\alpha\ge0} L(\pi,\alpha)$ 、其中 $\alpha=\begin{cases} 0,\space h\ge0 \\-\infty,h<0 \end{cases}$
- 因此 : $\max_\pi f(\pi)=max_\pi min_{\alpha\ge 0}L(\pi,\alpha)$
- 因此 : $\max_\pi E_\pi(R)= min_{\alpha\ge 0}max_\pi\space E_\pi(R-\alpha\log\pi-\alpha H_0)$
**更新公式 : **
- 依次算出 : $\begin{cases} \pi'=argmax_\pi\space E_\pi(R-\alpha\log\pi-\alpha H_0) \\ \alpha'=argmin_{\alpha\ge 0}\space E_\pi(\alpha\log\pi'-\alpha H_0) \end{cases}$
- 因此 : $Q(s_t,a_t) = E(R_t) + E[Q_{\bar\theta}(s_{t+1},a_{t+1})-\alpha'\log\pi'(a_t|s_t)]$
- 经推导可知t,t-1时刻公式相同因此可用动态规划迭代求解到收敛
参考网站 : 1 2 3 4

DRQ

思想: 将数据增强用在强化学习中有降低方差的效果(与传统监督学习的数据增强操作上有所差异)

RND

概述 : 外在奖励 $e_t$ $+$ 好奇心奖励 $i_t$

加入好奇心奖励(exploration_bonus)能鼓励探索、本文能在增加极少计算量的情况下获取良好的好奇心奖励、使模型能避开对无用的随机场景的探索(如随机环境)、专注于探索有用的新场景
相关工作:
- 计数，让 $i_t=1/n_t$ 或 $i_t=1/\sqrt n_t$ ，其中 $n_t$ 是造访过的历史次数。在连续场境下，可以把 $n_t$ 推广为造访次数的密度
- 预测误差，用类似model-base的transition函数的预测误差来表示 $i_t$ 。
- 理论依据，神经网络对训练集内的数据有较低的loss、因此可以用预测误差代表状态是否新颖、实验: 在手写数字识别网络中，数据集有很多0很少1，随着网络看过的1增多其误差单调递减、成功验证预测误差与造访次数的负相关性
核心算法 : target-network $f$ 与 predictor-network $\hat f$
- 随机初始化 $f$ 参数、从此不再更新
- $\hat f_\theta$ 参数是可训练的、损失函数 $L=|f(x)-\hat f_\theta(x)|^2$
- $f,\hat f$ 把输入从空间O映射到相同的特征空间 $R^k$ 中，并随着训练过程使得两者距离尽量小
- 只用一次前向传播就能得到 $i_t$ 、不增加太多开销
- 与知识蒸馏关联 : 可以把 $f$ 看作教师模型，学生 $\hat f$ 需要尽可能的去拟合 $f$ 的输出值、只能说执行的过程是相同的，但并不是传统意义上的蒸馏(目的不同: 完成了类似计数的功能)
预测误差来自四个方面
- 网络没看过这个状态，导致预测误差大
- 环境具有随机性、无法精确预测
- 模型选择不对、可能是模型表现能力不足、映射后的特征空间不匹配、缺乏关键输入信息等
- 优化过程中预测效果不显著
- 我们希望保留第一个误差来源、尽可能减少2,3,4造成的误差
降低不必要误差
- 环境具有随机性: 我们可以用预测误差减少的量，而非误差的绝对值来刻画好奇心奖励，但这样需要增加很大的计算量。如果使用绝对误差，可能因为环境的随机性导致某个状态永远无法预测正确、进而agent被卡在这个状态中
- 环境具有随机性: 选用确定性的目标网络(神经网络)、就能获得确定性的输出，我们不尝试去学习model-base中的transition函数(因为它具有随机性)、而引入本文提出的方法(即使用 $f,\hat f$ 的误差)
- 模型选择不对: 目标网络与预测网络选用结构相同网络、保证表达能力相同且映射后的特征空间匹配
训练细节
- 好奇心奖励在game_over后不应该被置零、否则会变得胆小
- 外在奖励在game_over后应该被置零、否则会选择在起点附近搜索小奖励然后自杀如此循环
- 好奇心奖励 $\gamma$ 应该 $\lt$ 外在奖励 $\gamma$ 。综上、为了让两者能够使用不同的更新方法应该维护两个 $V$ 函数、然后相加，称为n_head
- 由于目标网络不训练、需要正则化输入s的大小、避免目标因为受输入影响
与model-base区别
- model-base需要得到函数 $f$ ，能把 $s, a$ 映射到 $s^{'}$ 、对于随机性游戏难以精准预测、用此误差作为好奇心奖励可能导致智能体被困在具随机性的步骤中 (如在两个房间的边缘来回走动)
- RND可以理解为类似计数器、他只负责把 $s$ 映射到 $v$ (计数器的次数)、跟 $s^{'}$ 没有关系
参考网站: 1 2

A3C

GAE

方差与误差对结果影响 : 高方差(单步动作效益难以体现)、高误差(可能导致不收敛)
思路 :
- 从传统PG方法出发、依次引入 $\gamma,\lambda$ 两个参数在方差与误差间取舍
- $\gamma$ : 是传统方法中的折扣因子，此处视之为减小方差的参数
- $\lambda$ : 沿用了 $TD(\lambda)$ 中的思想，在TD与MC中取得折衷方案(也就是在方差与误差中取舍)
- 从reward-shaping角度出发重新看待GAE

传统的PG算法

$E[\sum_t \Psi^\pi \nabla_\theta\log\pi_\theta(a_t|s_t)]$

其中 $\Psi^\pi$ 可取以下值(注意此处用的是无折扣奖励)

$\sum_{t=0}^\infty r_t$	$Q^\pi(s_t,a_t)$	$\sum_{t'=t}^\infty[r_{t'}-b(s_t)]$
$\sum_{t'=t}^\infty r_{t'}$	$A^\pi(s_t,a_t)$	$r_t+V^\pi(s_{t+1})-V^\pi(s_t)$

引入 $\gamma$ 因子
- 其中 $A^\pi$ 是所有表达式中方差最小的，以下着重讨论
- 原公式 : $V^\pi(s_t)=E^{s\space t+1:\infty}_{a\space t:\infty}(\sum_l r_{t+l})\space;\space Q^\pi(s_t,a_t)=E^{s\space t+1:\infty}_{a\space t+1:\infty}(\sum_l r_{t+l})\space ;\space A^\pi=Q^\pi-V^\pi$
- 引入后 : $V^{\pi,\gamma}=E^{s\space t+1:\infty}_{a\space t:\infty}(\sum_l \gamma^l r_{t+l})\space;\space Q^{\pi,\gamma}=E^{s\space t+1:\infty}_{a\space t+1:\infty}(\sum_l \gamma^l r_{t+l})\space ;\space A^\pi=Q^\pi-V^\pi$
- 可以发现 $V^{\pi,\gamma},Q^{\pi,\gamma}$ 相较于 $V^\pi,Q^\pi$ 是有偏的( $E(V)\neq E(V^\gamma))$ ，引入 $\gamma$ 将产生误差
- 引入 $\gamma$ 后，未来收益(不确定性高)指数衰减，因此方差降低

$\gamma-just$

若 $\hat A$ 是 $\gamma-just$ ，则代表 $\hat A$ 是折扣奖励梯度的无偏估计，即 $E[\hat A\nabla\log\pi(a|s)]=E[A^{\pi,\gamma}\nabla\log\pi(a|s)]$

注意上面是指梯度的无偏估计，因此可引入一个不影响梯度的函数 $b$ 使得 $\hat A$ 仍是 $\gamma-just$ ， $\hat A$ 可取以下值

$\sum_{l=0}^\infty \gamma^lr_{t+l}$	$A^{\pi,\gamma}(s_t,a_t)$
$Q^{\pi,\gamma}(s_t,a_t)$	$r_t+\gamma V^{\pi,\gamma}(s_{t+1})-V^{\pi,\gamma}(s_t)$

$\hat A_t^{(k)}$
- 定义 : $\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$
- $\hat A_t^{(1)}=\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$
  
  $\hat A_t^{(2)}=\delta_t+\gamma\delta_{t+1}=r_t+\gamma r_{t+1}+\gamma^2 V(s_{t+2})-V(s_t)$
  
  $\hat A_t^{(k)}=\sum_l\gamma^l\delta_{t+l}=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}...+\gamma^k V(s_{t+k})-V(s_t)$
- 其中 $\hat A_t^{(1)}$ 为 $\gamma-just$ 的条件是 $V(s)=V^{\pi,\gamma}(s)$ 。但对于 $\hat A_t^{(k)}$ 来说当 $k\rightarrow\infty$ 时不管 $V (s)$ 是啥都是 $\gamma-just$ 了，因为此时 $\gamma^kV(s_{t+k})$ 非常小、 $V(s_t)$ 对梯度没有影响
引入 $\lambda$ 因子
- 类似 $TD(\lambda)$ 引入 $\lambda$ 因子，在MC与TD中找到平衡，( $TD(\lambda)$ 是对 $V$ 操作此处是对 $A$ 操作)
- 最终得到 $\hat A^{GAE(\lambda,\gamma)}=(1-\lambda)(\hat A_t^{(1)}+\lambda\hat A_t^{(2)}+\lambda^2\hat A_t^{(3)}...)=\sum_l(\lambda\gamma)^l\delta_{t+l}^V$
- $T D$ : $GAE(\gamma,0): r_t+\gamma V(s_{t+1})-V(s_t)$ 、只有当 $V=V^{\gamma,\pi}$ 时才是 $\gamma-just$ (unbias)
  
  $GAE(\gamma,1) : \sum_l \gamma^lr_{t+1}-V(s_t)$ 、 $\gamma-just$ 但是高方差(因为是MC)
$\gamma$ 与 $\lambda$ 的关系
- $\gamma$ 决定 $V^{\gamma,\pi}$ 是不是无偏的、若有偏将引入误差
- $\lambda$ 决定MC与TD的程度、当 $\gamma=1,\lambda<1$ 时不引入误差、但当 $\gamma<1,\lambda<1$ 时将引入误差、实验证明 $\lambda$ 取值可以比 $\gamma$ 来的小
参考网站 : 1 2

D2R2

概述: RNN网络的初始输入是本文重点探讨问题。

某些环境不满足MDP特性、RNN被引入来解决此类POMDP问题，分布式RL导致必须使用经验回放、经验回放将导致rnn_state初始状态有偏进而影响训练效果，比较四种rnn_state初始值的获取方法，分析误差来源，最终结合两种方法以达到最好效果
RNN
- 在观测o与全局状态s不相同时，环境不满足MDP性，变为POMDP
- 在o不满足MDP时 $Q (o, a)$ 估计是不准确的，因此需要把o映射到s(s满足MDP)后求 $Q (s, a)$ 才能降低误差
- RNN网络完成的就是这样的一个映射，即 $\rightarrow s$
Baseline:
- Ape-X : 分布式架构、priority_buffer、n-steps return、double network、dueling network、4 frame-stacking (以获取时间序列上的信息) 、并未使用RNN作为网络结构、D2R2=Ape-X + RNN
- IMPALA : 分布式架构，replay_buffer采用FIFO、每个数据只被使用一次、用重要性采样解决延迟问题(因为数据最多被用一次所以偏差不大)、roll_out时保存episode的rnn_state初始状态、训练时以之初始化rnn_state
rnn_state初始状态获取方法
- 法一: 记录整个轨迹、可以得到真实的rnn_state。无偏但存储与计算量大、数据相关性高导致训练可能不稳定
- 法二: 每个batch的rnn_state初始值设为零。可以降低各个batch之间的相关性、有偏的初始值导致RNN网络无法有效利用历史信息、Q函数降低对历史信息的依赖(失去引入RNN的初衷)
- 法三: roll_out时储存rnn_state初始值，训练时以之初始化。可能因为训练与roll_out的policy不同而引入误差(称为representational drift, recurrent state staleness)
- burn-in: buffer中的前m个数据不用来训练只用来得到初始rnn_state
Q-value discrepancy
- 为量化初始rnn_state误差，引入 $\Delta Q$ 。比较roll_out时rnn_state的真实初始值与训练时初始值的差值
- 定义: $\Delta Q = \frac{\sqrt{\sum_i(q(\hat h_{t+i}, \hat\theta)-q(h_{t+i}, \hat\theta))^2}}{|max_{_{a,j}}\space q(\hat h_{t+j},\hat\theta)|}$ 其中 $\hat h,\hat\theta$ 代表训练时的rnn_state与模型参数、h代表roll_out时的rnn_state、 $\Delta Q$ 越大初始化rnn_state对于 $h_i$ 的负面影响越大
- 注意此处着重讨论rnn_state初始值对 $h_i$ 的影响，因此都使用 $\hat\theta$ ，这样相较 $\theta$ 来说是有偏的、但这样的偏差来源类似于没做off-policy-correction所导致的误差，不在此处讨论范围可以不考虑
实验与结论
- 法三 $\Delta Q$ 小于法二、且法二在 $i$ 很小的时候误差更大(证明burn-in的合理性)
- 法四避免模型在 $i$ 很小时被错误更新、实验证明可以提升性能 (避免错误更新能增加模型对RNN的依赖)
- 随着rnn所使用的轨迹长度减小，性能单调下降，证明RNN的有效性。且发现在非POMDP场景引入RNN也能有效提升性能
- 最终方法: 结合法三与法四、最小化rnn_state初始值引入的误差
参考网站: 1 2

PopArt

核心论文 : Multi-task Deep Reinforcement Learning with PopArt

思路:
- 需要训练一个策略能同时解决多个相似任务(动作与状态空间部份共享)，采用平行训练多任务方法，这种同时训练的方法将导致各个任务竞争资源，因此需要确保各个任务获得的奖励相同
- 传统缩放奖励方法与问题
  - 手动选取缩放倍数 : 每个任务都不相同手选不现实、随策略性能提升、获取奖励逐渐增加、缩放倍数应该随之调整
  - clipping(限制过大的奖励) : 将导致reward反映的是奖励的频率而非大小
  - PopArt可以标准化奖励、使各个任务的奖励大小与频率被归一化 (见前身论文)
多任务训练实现细节
- 使用AC架构、Critic输入包含任务id、Actor不包含，也就是智能体在训练时能够知道所要解决的任务但在测试时需要直接从观测中分辨所处场景
- 具体来说actor与critic更新公式分别如下、注意critic在n个任务时有n个输出、而actor总是输出联合动作分布(符合上一条所述内容)。更新则是一个任务一个任务地更新( $i = 0, 1, . . ., n$ )。
  - $\Delta\theta\propto[\frac{G_t^{v,i}-\mu_i}{\sigma_i}-n^i(S_t)]\nabla_{_\theta} n^i_\theta(S_t)$
  - $\Delta\eta\propto[\frac{G_t^{\pi,i}-\mu_i}{\sigma_i}-n^i(S_t)]\nabla_{_\eta}\log\pi_\eta(A|S)$
- IMPALA架构(有中心learner与并行actor、刚好可以让每个任务作为一个actor)

前身论文 : learning values across many orders of magnitude

思路: 引入两组独立更新参数 $\Sigma,\mu$ 和 $W, b$ ，使得奖励 $Y$ 标准化为 $\hat Y$ ，且 $Y$ 与 $\hat Y$ 的对应关系在梯度更新后不改变
POP : 为所有输入保存标准化前的输出 :
- 如果归一化参数不断在变，将导致拟合的目标不断改变、难以收敛
- 标准化输出 : $\hat Y = \Sigma^{-1}(Y-\mu)$ 、原输入 : $Y=f_{_{\theta,\Sigma,\mu,W,b}}(x) = \Sigma_{_{kxk}}(W_{_{kxm}}h_{_{mx1}}+b_{_{kx1}})+\mu_{_{kx1}}$ 、推导如下
- 我们希望学到权重 $\Sigma$ 以及 $\mu$ 、使得Y被归一化，由于 $\hat Y = \Sigma^{-1}(Y-\mu)$ 所以 $\Sigma\hat Y + \mu$ ，如果直接这样反向传播会出问题，也就是假设 $\hat Y_1 = \Sigma_1^{-1}(Y_1-\mu_1)$ ，那么权重更新后我们得到 $\hat Y_1\neq\Sigma_2^{-1}(Y_1-\mu_2)$ 也就是需要拟合的目标在变化，将导致不收敛
- 为了让 $\hat Y_1=\Sigma_2^{-1}(Y_1-\mu_2)$ 。我们把标准化后输出 $\hat Y$ 改写成 $W h + b$ 可得 $=\Sigma(Wh+b)+\mu$ 、其中 $W h + b$ 可以看做多加一层全连接层。我们规定 $\Sigma$ 与 $\mu$ 更新时 $W$ 与 $b$ 也要相应的进行更新使得 $Y$ 与 $\hat Y$ 的关系保持因此得到如下公式
- $W_{new}=\Sigma_{new}^{-1}\Sigma W$ 以及 $b_{new}=\Sigma^{-1}_{new}(\Sigma b+\mu-\mu_{new})$
ART 标准化 :
- 使用指数下降的滚动平均 : $\begin{cases} E_{_{t+1}}(Y)=(1-\beta)E_{_t}(Y)+\beta Y_{t+1}\\ E_{_{t+1}}(Y^2)=(1-\beta)E_{_t}(Y^2)+\beta Y^2_{t+1}\\\sigma = E_{_{t+1}}(Y^2)-E_{_{t+1}}(Y)^2 \end{cases}$
- 需要注意 $\beta$ 不能太小，否则当 $Y^{t+1}$ 很大时滚动平均变化不大、 $\Sigma,\mu$ 变化不大导致 $W, b$ 变化不大、造成误差 $\delta$ 很大影响更新步长
- $s\sqrt{\frac{1-\beta}{\beta}}\ge\frac{Y-\mu}{\sigma}\ge-s\sqrt{\frac{1-\beta}{\beta}}$ 、其中s是一常数
- 由上面不等式可以推出在给定 $\beta$ 的条件下，误差(正比于Y)被限制在一定范围、可通过调s跟 $\beta$ 完成scaling
Normalized-SGD
- 接下来提出一种与POPART等效的更新算法
- 令 $Y=W\hat Y_\theta+b$ 、更新 $\theta$ 的公式改为 $\theta$ <- $\theta-\alpha J(\Sigma^{-1}W)^T(\Sigma^{-1}\delta)$ 其他正常
- 其中 $\Sigma$ 是滚动方差、因为 $W,\delta$ 都与Y的Scale成正比因此 $\hat Y_\theta$ 的更新会与scale成平方的关系是我们不乐见的。因此需要在更新 $\theta$ 时除以方差将他消除
小结:
- POPART : $=\Sigma(W\hat Y+b)+\mu$ 、更新 $\Sigma,\mu$ 、相应调整 $W, b$ 、标准化更新 $W\hat Y+b$
- Nor-SGD : $Y=W\hat Y_\theta+b$ 、正常更新 $W, b$ 、标准化更新 $\hat Y$
- 其中POPART的标准化更新是指 $\delta=(W\hat Y+b)-\Sigma^{-1}(Y_t-\mu)$ 、N-SGD没有 $\Sigma,\mu$ 所以标准化更新改为对权重与偏差的标准化，即 $\theta$ -> $\theta-\alpha J(\Sigma^{-1}W)^T(\Sigma^{-1}\delta)$
- N-SGD正常更新W,b = POPART中标准化更新W,b + 相应调整W,b
- 论文中的思路 : $\Sigma,\mu$ 是一个网络、 $W\hat Y+b$ 是一个网络、前者负责缩放后者负责拟合、两者更新方式不同且独立运行、为了让缩放不影响拟合(不改变 $Y,\hat Y$ 的关系)、需要做出相应调整
参考网站 : 1

Go-Explore

detachment : 不再对某块区域进行探索、可能是太久没去被遗忘

derailment : 无法回到想要某个状态 (高 $\epsilon$ 导致到达状态概率低、低 $\epsilon$ 导致探索不足)
从archive拿出一个暂态、从这个状态开始探索、把探索得到的新状态加入archive。archive可视为边界的存储器、可以防止detachment。状态空间太高维archive会太大、在此用降采样计数降低维数、每个cell只存储一个状态(最短路径)
探索只需要在边界探索、但你要保证线走到边界、so first return(到边界) and explore。 $\epsilon-greedy$ 方法可能derailment(到不了边界)
可以利用domain_specific的知识来构建archive、对原本的RL算法无任何影响。IM方法难加domain_specific奖励。例如: 如果将水平像素差距不大的两帧画面称为邻居、则没有邻居的画面有较高的概率是边界(应该多选他)
policy-base比restored state的方式更有效、探索时可以用policy而非随机动作增加效率
sticky-action比no-ops效果差
archive中cell的选取与该状态被访问的次数负相关
policy-base: 应该更多的选取造访次数少的cell、需要确保能够回到该状态以及在回到该状态的过程中也能够探索。

QMIX

摘要 : 中心化训练(引入状态s)、分布式执行(只用观察o)、中心Q是个体Q的非线性叠加

Independent Q-learning : 分开训练、A是B的环境、环境在变容易不收敛、某些情况效果好

centralized learning : 把所有人的状态与动作合并造成数据高维(不支持超多智能体)、中心化训练难以分布式执行(执行时无s只有o)、COMA使用AC框架(只能on-policy)、

Centralized Training with Decentralized Execution : 中心训练确保收敛、分布执行确保可执行性
VDN(QMIX前身)
- credit assignment问题 : 共用Q导致虚假奖励(奖励可能来自队友)、惰性智能体问题 -> 训练各自Q解决之
- 核心假设 : $Q((h_1,..h_d),(a_1,...a_d))=\sum_1^d Q_i(h_i,a_i)$
  
  其中d是智能体数、h是历史序列信息、此处 $Q_i$ 不是价值函数(即不用去逼近 $\sum\gamma^n R$ )
- VDN的问题 : 线性叠加限制了函数表达能力、未使用全局状态s
只要满足 $argmaxQ_{total}=\begin{pmatrix} argmaxQ_1\\ ...\\ argmaxQ_n \end{pmatrix}$ 、或等价表示 $\frac{dQ_{total}}{dQ_i}\ge0$ ，就能中心训练分布执行(训练多个单体Q后、monotonically求和)。VDN用线性表现能力差、因此QMIX用权重为正的MLP增加表现能力。
单体效用函数 : $Q_i(\tau^i, a_i, i)$ 、其中i代表第i个智能体、 $\tau$ 代表智能体的历史观测与动作、使用DRQN(RNN网络结构)、使用权重共享(即每个智能体共用同一个网络、只是网络输入含有id)
参数网络(hypernetwork) : 输入整体状态s输出网络参数W、输出前过一个激活函数确保参数是非负的、不把s作为输入而搞了个这是因为s没有如上 $Q_i$ 与 $Q_{total}$ 同向的限制增加表达能力
总体效用函数 : $L(\theta)=\sum_{i=1}^b(R+\gamma\max_{u'} Q(\tau', s',u',\theta')-Q(\tau, s,u,\theta))$ 、其中u是所有人的动作、s是所有人的状态、 $\theta'$ 是目标网络参数
参考网站: 1 2 3

CDS

参考网站 : 1

MAPPO

摘要 : 中心化训练、以PPO方法、提出五种tips，是一篇创新性低技巧性强的文章
相关工作:
- 中心学习+执行(缺点:只能合作)、分布学习+执行(缺点:可能不收敛)、中心学习分布执行(COMA)、值分解(QMIX)
- 目前单智能体 : off-policy(SAC等)胜过on-policy(PPO等)
核心算法
- actor更新: $L(\theta)=E[\sum_kmin(r_\theta^{(k)}A^{(k)},clip(r_\theta^{(k)},1-\epsilon,1+\epsilon)A^{(k)})]$ 、其中 $r_\theta^{(k)}=\frac{\pi_\theta(a|o)}{\pi_{\theta_{old}}(a|o)}$
critic更新: critic更新: $L(\phi)=E[\sum_kmax([V_\phi(s)-\hat R]^2,(clip[V_\phi(s),V_{\phi_{old}}(s)-\epsilon,V_{\phi_{old}}(s)+\epsilon]-\hat R)^2]$
- 网络结构: 输入观测 -> BASE(CNN/MLP) -> COMMON(MLP) -> RNN(需要输入上个rnn_state) -> ACTOR/CRITIC(MLP) -> 输出动作或值函数(此处需要做额外处理如采样或PopArt等)
RNN网络: 在每个轨迹的起始rnn-state为零，而后上个输出是下个输入
tips:
- Value-normalization : PopArt用滚动平均与方差来归一化输出值
- Agent-Specific Global State : 既含有全局又有局部信息的状态s作为中心化critic输入会更有效。如果直接拼接o得到s会因为维度爆炸而无法收敛。如果只使用全局信息s而不包含局部信息可能会导致重要的局部信息缺失，若s挑选错误反而效果会更糟。
- Data-usage : PPO属于on-policy算法，在使用重要性采样后可以稍稍往off-policy靠，因此传统PPO通常能够重复利用数据10次左右。但经实验证明，在MAPPO中数据无法使用多次，否则效果会变遭，推测是环境不稳定的原因。此外，MAPPO引入的方差比单智能体大的多，因此大的batch-size对MAPPO来说效果会更好
- Action-mask : 无效动作在前向与反向传播时置零
- Death-mask : 死了不该继续学、否则将引入误差。智能体死亡后，输入的s全部置零，但保留id-one-hot
参考网站: 1 2

COMA

counterfactual multi-agent policy gradients
现有的问题与结决方案
- local_observation : 可解决联合观测空间太高维、partial_observation、communication_constrain
- centralized_critic : 可获取全局信息以指导actor
- counterfactual_baseline : 可解决联合奖励对中心化critic的credit_assignment问题、若对于中心化critic分别设计reward、可能导致无法合作
- efficient critic representation : 函数逼近取代模拟器计算counterfactual_baseline(更快 : 可在一个batch内完成计算)、可以不用考虑默认动作
Independent Actor-Critic
- 独自训练(使用 $u^a$ 而非 $u$ 来训练)、共享参数(总共只有AC各一个)、缺少全局信息(无法合作)
- 中心化critic : $Q(\tau^a,u^a)$
  
  可得 $A(\tau^a,u^a)=Q(\tau^a,u^a)-V(\tau^a)=Q(\tau^a,u^a)-\sum_{u^a}\pi(u^a|\tau^a)Q(\tau^a,u^a)$
中心化critic
- 原始的策略迭代 : $\nabla\log\pi(u^a|\tau^a)A(u^a,\tau^a)$ 、共训练n次
- 使用s的策略迭代 : $\nabla\log\pi(u|\tau^a)A(u,s)$ 、共训练1次
- 有credit_assignment问题，即共享reward导致无法确定单独动作 $u^a$ 带来的收益(可能他人在探索你在利用会导致reward含有极大噪声)
counterfactual_baseline
- 为每个agent定做reward : $D^a=r(s,u)-r(s,(u^{-a},c^a))$
  - 其中 $c^a$ 是智能体a默认动作
  - $r(s,(u^{-a},c^a))$ 代表 $agent_a$ 使用默认动作 $c^a$ 其余agent使用动作 $u^{-a}$ 所能获得的收益
- $argmax(D^a)$ 可以同时 $argmax\space r(s,u)$ 、因为 $r(s,(u^{-a},c^a))$ 与 $u^a$ 无关可视为常量
- 问题 : $c^a$ 无法确定、 $r(s,(u^{-a},c^a))$ 需要与环境交互获取
与优势函数联系
- 优势函数 : $A(s,a)=Q(s,a)-\sum_{a'}\pi(a'|s)Q(s,a')$ 、这里s,a是单智能体情况下的状态与动作
- COMA : $D^a(s,u)=Q(s,u)-\sum_{u'^a}\pi^a(u'^a|\tau^a)Q(s,(u^{-a},u'^a))$
- 可以发现COMA是单智能体优势函数在多智能体领域的一种推广
- 用 $\sum_{u'^a}\pi^a(u'^a|\tau^a)Q(s,(u^{-a},u'^a))$ 巧妙地避开了 $r(s,(u^{-a},c^a))$ 的模拟与 $c^a$ 的选取
- $\sum_{u'^a}\pi^a(u'^a|\tau^a)Q(s,(u^{-a},u'^a))$ 虽然与策略有关，但梯度期望为零因此可以作为baseline (后面会证)
efficient critic representation
- $Q (s, u)$ 输出维度(joint-action-space)有 $U^n$ 维、其中U是动作空间、n是智能体数
- 将网络改为输入 $u^{-a}$ 输出 $Q(s,(u^{-a},u'^{a_{1,2...,n}}))$ 、输出维度降到 $U$ 维(指数级下降)
补充说明
- 连续动作空间 : 可以使用MC方法扩展、或用高斯分布近似等
- 收敛性 : 由前人工作知当 $g=E(\nabla\log\pi(a|s)Q(s,a))$ 且 $\pi$ 可微时能保证收敛
- 因此此处需要证明 $E(\sum_a\nabla\log\pi^a(u^a|\tau^a)b(s,u^{-a}))=0$ 才能让上式中g式成立、其中 $b(s,u^{-a})=\sum_{u'^a}\pi^a(u'^a|\tau^a)Q(s,(u^{-a},u'^a))$ 、证明见论文
参考网站 : 1

weixin_47560863

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习论文笔记 (1)

TRPO摘要: 找到更新参数的方法使得期望效用不减(策略梯度若学习率选择不好更新后可能效用更低)效用函数 η(π)=Es0,s1...(∑t=0∞γtR(st))\eta(\pi)=E_{s0,s1...}(\sum_{t=0}^\infty\gamma^tR(s_t))η(π)=Es0,s1...(∑t=0∞γtR(st))引理: η(π′)=η(π)+Es,a∼π′(∑t=0∞γtAπ(st,at))\eta(\pi')=\eta(\pi)+E_{s,a\sim\pi'}(\sum_{t=
复制链接

扫一扫