马尔可夫决策过程:以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。智能体与环境之间是在一系列离散的时步 ①( time step )交互。
DQN算法: 在 DQN 算法中还有一个重要的技巧,即使用了一个每隔若干步才更新的目标网络。这个技巧其实借鉴了 Double DQN 算法中的思路,具体会在下一章展开。如图 7-3 所示,目标网络和当前网络结构都是相同的,都用于近似 Q 值,在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络,这样做的好处是保证训练的稳定,避免 Q 值的估计发散。
Double DQN 算法
Dueling DQN 算法
Noisy DQN 算法
PER DQN 算法
C51算法