DeepMind在2013年提出DQN模型称为NIPS DQN,主要是增加了经验回放(experience replay)的功能,上篇文章已经介绍。此后,相继有各种改进模型发表。
Nature DQN
由DeepMind在2015年提出,论文:Human-level control through deep reinforcement learning。主要的改进是增加Target Q网络。也就是我们使用一个单独的Q网络来计算目标Q值,这样做的目的是为了减少目标值与当前值的相关性。相应的损失函数如下:
这里Target Q网络的结构和当前的Q网络结构一样,只不过参数不一样,如上面公式中的w-。那么Target Q网络的参数得到呢?还是从Q网络中来,只不过是延迟更新。也就是每次训练了一段时间后再将当前Q网络的参数值复制给Target Q网络。
具体算法如下:
改进的效果还是不错的,下图引用自Nature的论文。
其他改进:
上图选自David Silver在ICML 2016中的Tutorial::深度增强学习Tutorial。