【强化学习-DRL】深度强化学习如何选择合适的算法?
- 引言:本文第一节先对DRL的脉络进行简要介绍,引出Mode-Free DRL。
- 第二节对Mode-Free DRL的两种分类进行简要介绍,并对三种经典的DQL算法给出其交叉分类情况;
- 第三节对Mode-Free DRL的四个核心(改进方向)进行说明。
- 第四节对DQN的四个核心进行介绍。
DRL的发展脉络
- DRL沿着Mode-Based和Mode-Free两个脉络发展。
- Mode-Based:利用已知环境模型或未知环境模型进行显式建,并与前向搜索(Look Ahead Search)和轨迹优化(Trajectory Optimization)等规划算法结合达到提升数据效率的目的。相比而言,Mode-Based更加复杂,在实践中应用较少,在学术研究中使用较多。
- 本文对Mode-Free系列的方法进行介绍。
Mode-Free DRL算法的分类
- 按照不同的分类可以分为:Value-Based方法、Policy-Based方法。以及Off-Policy、On-Policy。
- DQN、DDPG、A3C是三种非常非常经典的方法,也是DRL的研究重点,后续提出的新算法基本都立足于这三种框架。DQN、DDPG、A3C在上述两种分类方式下交叉分类情况如下图。
Mode-Free DRL算法的四个核心(改进方向)
- Mode-Free DRL算法的核心为:基本原理、探索方式、样本管理、梯度计算。
- 基本原理:基本原理层面进展缓慢,但是DRL未来大规模应用的关键所在。
- 探索方式: 探索方式的改进使得DRL算法更加充分地探索环境,以更好地平衡探索和利用,从而有机会学习到更好的策略。
- 如为了改善DQN的探索,使用噪声网络(Noisy Net)代替默认的 ϵ − G r e e d y \epsilon-Greedy ϵ−Greedy 。
- 样本管理:样本管理的改进,有助于提升DRL算法的样本效率,从而加快收敛速度,提高算法实用性。
- 如为了提升样本效率,可以将常规经验回放改为优先经验回放(Prioritized Experience Replay,PER)。
- 梯度计算:梯度计算的改进致力于使每一次梯度更新都稳定、无偏和高效。
- 如为了提高训练稳定性,在计算目标值时由单步Bootstrap改为多步Bootstrap。
DQN
- 我们以DQN为例子对Mode-Free DRL算法的四个核心进行说明。
基本原理
- DQN(Deep Q-Networks)继承了Q-Learning的思想,利用贝尔曼公式的Bootstrap特性,根据式子1计算目标值并不断迭代一个状态动作估值函数 Q θ ( s , a ) Q_\theta(s,a) Qθ(s,a),直到收敛。
J