参考文献:[1512.01693] Deep Attention Recurrent Q-Network (本篇DARQN)
[1507.06527v3] Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN,可参见我上一篇笔记)
目前网上我搜到的论文笔记参考:论文笔记之:Deep Attention Recurrent Q-Network
创新点:将DQN(其实是更进一步的DRQN)与attention mechanism(注意力机制)结合
改进:基于DRQN,在CNN与LSTM之间加入了attention network(注意力网络)(作者也说这里其实可以看做LSTM额外增加了一个过滤门)
改进原因:
1、DQN在需要4帧以上的图像时效果不好,并且DRQN没有太大的系统上的性能提升。
2、DQN训练时间长,参数太多