个人强化学习论文导航

  • 这里整理我笔记过的强化学习论文
  • 持续更新中…

1 RL 经典

  1. 【Nature 2015】 —— 【DQN】Human-level control through deep reinforcement learning
    • 使用 Q 价值网络替代过去 Q-learning 中的 Q 表格,loss 为关于 TD error 的 MSE 损失,使用了均匀经验重放

2 经验回放 Experience Replay

  1. 【NIPS 2020】—— 【LAP & PAL】An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay

    • 这是一篇偏向理论分析的文章,主要结论为:经验回放时 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的,并给出了转换方法
    • 作者用考察估计价值常用的 PER + MSE loss 方案,发现其等价均匀重放损失中 TD error 项的幂次超过 2,因此优化过程会偏向异常点(类似最小二乘法受离群点影响)
    • 最后,作者提出了一种 PER 的改进方案 LAP,以及等价的均匀重放损失 PAL
  2. 【ICLR 2016】—— 【PER】Prioritized Experience Replay

    • 非均匀经验重放领域经典文章,TD error 绝对值代表 agent 面对一个新 ( s , a ) (s,a) (s,a) pair 的 “惊讶程度”,直接用 transition TD error 绝对值的大小或排名进行加权重放
  3. 【NIPS 2020】—— 【DisCor】Corrective Feedback in RL via Distribution Correction

    • 作者注意到,来自 bootstrap 的 TD target 是渐进准确的,因此训练早期给出的目标并不准确,DRL 中引入价值网络会使这个问题更加严重,导致 RL 的价值学习缺乏 “纠正性反馈”,Q 价值估计不准。作者以最小化全局 Q 误差为目标解优化问题,算出一个采样加权策略,得到的结果也很符合直觉:应该强调那些当前估计更精确(即当前 Q ( s , a ) Q(s,a) Q(s,a) 更靠近 Q ∗ ( s , a ) Q^*(s,a) Q(s,a))的 transition
    • 结果中出现了很多无法直接获得的项,作者做了大量放松近似
  4. 【PMLR 2022】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights

    • 作者认为重放样本时应该多关注那些当前策略访问更频繁的 ( s , a ) (s,a) (s,a),因为那些目前几乎访问不到的 pair 对于更新当前策略也几乎没有意义。因此作者设计的重放权重就是当前策略和 replay buffer 中 transition 分布的重要性采样比,使用快慢缓冲区的方法来估计其值
  5. 【NIPS 2021】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL

    • 作者直接以最小化后悔(最大化累计折扣回报)为目标解优化问题,算出一个采样加权策略,注意这是 RL 方法的终极目标,得到的加权方案应该是无偏的
    • 解出的结果说明:事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition,应在抽样过程中赋予更高的权重。注意到这些指标分别对应了 PER、LFIW、DisCor 三篇文章,把过去的方法统一起来了

3 离线强化学习 Offline RL

  1. 【NIPS 2021】 —— 【COIL】Curriculum Offline Imitating Learning

    • 一种 IL-based 的 Offline RL 方法。作者发现,过去从 random 策略开始直接对混合数据集进行 BC,不得不使用很多差的 transition 扩展数据集覆盖的 S × A \mathcal{S\times A} S×A 空间,导致最好的那些 transition 的作用被抵消掉
    • 作者认为可以构造一系列 BC 课程,令每个迭代课程中的初始策略 π 0 \pi_0 π0 和模仿对象 π b \pi_b πb 接近,这时级联错误问题可以近似忽略,那些略优于每个 BC 课程初始策略 π 0 \pi_0 π0 的 transition 能最大限度地发挥作用,高效地将 π 0 \pi_0 π0 提升为接近 π b \pi_b πb π \pi π最终学得策略的性能可以接近混合数据集中最好的行为策略
    • COIL 每轮迭代根据 “相似度” 和 “性能” 两个条件从 Offline dataset 中选出一个候选轨迹经验池作为模拟目标,通过 BC 进行学习,策略更新之后,从 Offline dataset 中清除使用过的轨迹,并用 Return Filter 进一步过滤掉性能不佳的轨迹,直到 dataset 空时自当停止
  2. 【NIPS 2020】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning

    • 一种 IL-based 的 Offline RL 方法。想法很直接,就是挑出 offline dataset 里 return 最好(最接近 V ∗ ( s ) V^*(s) V(s))的那部分 ( s , a ) (s,a) (s,a) 样本做模仿学习。作者训练了一个上包络网络,估计出各个状态 s s s 对应 return 的上极限,然后选出最接近这个极限的那部分 transition
    • 由于 offline dataset 中轨迹长度有限,return 可能不准确,作者设计了一个启发式的方法对轨迹进行拼接,提高估计数据集中 ( s , a ) (s,a) (s,a) pair return 的精度

4 情节控制 Episodic Control

  1. 【CoRR 2016】—— 【MFEC】Model Free Episodic Control

    • Episodic Control 领域的第一篇文章,通过改变 RL 中价值估计的方式来提高样本效率。传统 Q-learning 等方法的 Q Q Q 价值代表未来累计折扣 return 的期望,需要基于 MC 进行估计,效率很低。作者提出使用代表未来累计折扣 return 最大值的 Q E C Q^{EC} QEC 代替 Q Q Q,这是一个表格型方法,使用 KNN 解决泛化性问题
    • 仅适用与确定性环境,可以在早期大幅提升样本效率,但是学习后期效果不佳
  2. 【ICLR 2020】—— 【ERLAM】Episodic reinforcement learning with associative memory

    • 作者将 replay buffer 中的轨迹变成图形式,这样就能沿着图进行价值传播。这里作者也计算了 MFEC 一样相同的 Q E C Q^{EC} QEC 价值,但不是直接用来优化策略,而是作为价值网络的正则项

5 可解释性

  1. 【ICLR 2021】—— 【ESP-DQN】Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions

    • RL agent 只能通过价值差解释动作偏好,这很不直观。作者希望让 RL agent 能像人类一样给出有语义信息的偏好解释。所以首先要设计一些手工特征,然后像计算价值函数一样将其变为未来的期望特征,称为 GVFs,再用一个组合网络组合这些 GVFs 得到价值函数
    • 使用 Integrated gradient 方法将价值函数转换为 GVFs 的线性组合,这样就可以解释了,最后用 Minimal sufficient explaination 方法来化简这些解释

6 多智能体

  1. 【NIPS 2021】—— 【CoPO】Learning to Simulate SDP System with Coordinated Policy Optimization

7 探索策略

  1. 【Nature 2021】—— 【Go-Explore】First return, then explore
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云端FFF

所有博文免费阅读,求打赏鼓励~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值