简单概括该文:
a、创新之处:提出QRQN结构:DQN+LSTM
b、创新原因:DQN有两个缺陷——1、经验池内存有限制;2、每个决策点都需要完整的游戏界面。
c、改动措施:将DQN的第一个全连接层换成LSTM网络
Introduction:
DQN只取了过去四帧(即四张图)作为输入,而如果游戏需要四帧以上的记忆,则将出现部分可观测马尔科夫性(Partially-Observable Markov Decision Process ,POMDP),例如Pong游戏——仅显示棍子和球的位置缺少球的速度。这会造成信息特征的不完整,状态信息有noisy。而行进方向需要查看球的行进,而不是当前状态(球在一个时刻的位置),这就不满足马尔科夫性中的:未来状态仅取决于当前状态。
因为DQN在面对不完全的状态(incomplete state),性能会下降,所以引入LSTM用来弥补闪烁的游戏界面和卷积层缺乏的速度检测,DRQN更擅长解决信息丢失问题。
DQN:
其与常规的强化学习Q-Learning最大的不同就是,DQN在初始化的时候不再生成一个完整的Q-Table,每一个观测环境的Q值都是通过神经网络生成的,即通过输入当前环境的特征Features来得到当前环境每个动作的Q-Value,并且以这个Q-Value基准进行动作选择。
loss = 目标值网络 — 当前值网络(评估值网络)