- 这里整理我笔记过的强化学习论文
- 持续更新中…
1 RL 经典
- 【Nature 2015】 —— 【DQN】Human-level control through deep reinforcement learning
- 使用 Q 价值网络替代过去 Q-learning 中的 Q 表格,loss 为关于 TD error 的 MSE 损失,使用了均匀经验重放
- …
2 经验回放 Experience Replay
-
- 这是一篇偏向理论分析的文章,主要结论为:经验回放时 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的,并给出了转换方法
- 作者用考察估计价值常用的 PER + MSE loss 方案,发现其等价均匀重放损失中 TD error 项的幂次超过 2,因此优化过程会偏向异常点(类似最小二乘法受离群点影响)
- 最后,作者提出了一种 PER 的改进方案 LAP,以及等价的均匀重放损失 PAL
-
【ICLR 2016】—— 【PER】Prioritized Experience Replay
- 非均匀经验重放领域经典文章,TD error 绝对值代表 agent 面对一个新 ( s , a ) (s,a) (s,a) pair 的 “惊讶程度”,直接用 transition TD error 绝对值的大小或排名进行加权重放
-
【NIPS 2020】—— 【DisCor】Corrective Feedback in RL via Distribution Correction
- 作者注意到,来自 bootstrap 的 TD target 是渐进准确的,因此训练早期给出的目标并不准确,DRL 中引入价值网络会使这个问题更加严重,导致 RL 的价值学习缺乏 “纠正性反馈”,Q 价值估计不准。作者以最小化全局 Q 误差为目标解优化问题,算出一个采样加权策略,得到的结果也很符合直觉:应该强调那些当前估计更精确(即当前 Q ( s , a ) Q(s,a) Q(s,a) 更靠近 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a))的 transition
- 结果中出现了很多无法直接获得的项,作者做了大量放松近似
-
【PMLR 2022】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights
- 作者认为重放样本时应该多关注那些当前策略访问更频繁的 ( s , a ) (s,a) (s,a),因为那些目前几乎访问不到的 pair 对于更新当前策略也几乎没有意义。因此作者设计的重放权重就是当前策略和 replay buffer 中 transition 分布的重要性采样比,使用快慢缓冲区的方法来估计其值
-
【NIPS 2021】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL
- 作者直接以最小化后悔(最大化累计折扣回报)为目标解优化问题,算出一个采样加权策略,注意这是 RL 方法的终极目标,得到的加权方案应该是无偏的
- 解出的结果说明:事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition,应在抽样过程中赋予更高的权重。注意到这些指标分别对应了 PER、LFIW、DisCor 三篇文章,把过去的方法统一起来了
-
…
3 离线强化学习 Offline RL
-
【NIPS 2021】 —— 【COIL】Curriculum Offline Imitating Learning
- 一种 IL-based 的 Offline RL 方法。作者发现,过去从 random 策略开始直接对混合数据集进行 BC,不得不使用很多差的 transition 扩展数据集覆盖的 S × A \mathcal{S\times A} S×A 空间,导致最好的那些 transition 的作用被抵消掉
- 作者认为可以构造一系列 BC 课程,令每个迭代课程中的初始策略 π 0 \pi_0 π0 和模仿对象 π b \pi_b πb 接近,这时级联错误问题可以近似忽略,那些略优于每个 BC 课程初始策略 π 0 \pi_0 π0 的 transition 能最大限度地发挥作用,高效地将 π 0 \pi_0 π0 提升为接近 π b \pi_b πb 的 π \pi π,最终学得策略的性能可以接近混合数据集中最好的行为策略
- COIL 每轮迭代根据 “相似度” 和 “性能” 两个条件从 Offline dataset 中选出一个候选轨迹经验池作为模拟目标,通过 BC 进行学习,策略更新之后,从 Offline dataset 中清除使用过的轨迹,并用 Return Filter 进一步过滤掉性能不佳的轨迹,直到 dataset 空时自当停止
-
【NIPS 2020】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning
- 一种 IL-based 的 Offline RL 方法。想法很直接,就是挑出 offline dataset 里 return 最好(最接近 V ∗ ( s ) V^*(s) V∗(s))的那部分 ( s , a ) (s,a) (s,a) 样本做模仿学习。作者训练了一个上包络网络,估计出各个状态 s s s 对应 return 的上极限,然后选出最接近这个极限的那部分 transition
- 由于 offline dataset 中轨迹长度有限,return 可能不准确,作者设计了一个启发式的方法对轨迹进行拼接,提高估计数据集中 ( s , a ) (s,a) (s,a) pair return 的精度
-
…
4 情节控制 Episodic Control
-
【CoRR 2016】—— 【MFEC】Model Free Episodic Control
- Episodic Control 领域的第一篇文章,通过改变 RL 中价值估计的方式来提高样本效率。传统 Q-learning 等方法的 Q Q Q 价值代表未来累计折扣 return 的期望,需要基于 MC 进行估计,效率很低。作者提出使用代表未来累计折扣 return 最大值的 Q E C Q^{EC} QEC 代替 Q Q Q,这是一个表格型方法,使用 KNN 解决泛化性问题
- 仅适用与确定性环境,可以在早期大幅提升样本效率,但是学习后期效果不佳
-
【ICLR 2020】—— 【ERLAM】Episodic reinforcement learning with associative memory
- 作者将 replay buffer 中的轨迹变成图形式,这样就能沿着图进行价值传播。这里作者也计算了 MFEC 一样相同的 Q E C Q^{EC} QEC 价值,但不是直接用来优化策略,而是作为价值网络的正则项
-
…
5 可解释性
-
- RL agent 只能通过价值差解释动作偏好,这很不直观。作者希望让 RL agent 能像人类一样给出有语义信息的偏好解释。所以首先要设计一些手工特征,然后像计算价值函数一样将其变为未来的期望特征,称为 GVFs,再用一个组合网络组合这些 GVFs 得到价值函数
- 使用 Integrated gradient 方法将价值函数转换为 GVFs 的线性组合,这样就可以解释了,最后用 Minimal sufficient explaination 方法来化简这些解释
-
…