paper: Deep Recurrent Q-Learning for Partially Observable MDPs (AAAI’15)
paper source code: https://github.com/mhauskn/dqn/tree/recurrent
Motivation
DQN局限:
在求解POMDP问题时(take action需history), 我们缺少一种有效整合history的机制. 在DQN中提出的方法是stack 4-frame的图像, 但这种方法只适用于整合图像类的history, 且如果整合的时间跨度较长, 图像会混乱.
Proposed solution: DRQN
- 改进之处
fc1 -> lstm - FOMDP
DRQN paralles to DQN. 在此情况下, DRQN没有什么优势, 但可以成为原方法的替代方法. - MDP to POMDP
DRQN outperforms DQN. DRQN有更好的Generalization.
注意: 仿真结果中DRQN曲线非单调.
PS
- 优化器的选择
- 网络构造的选择
- lstm位置
- 激活函数
- lstm update方式
- DRQN两个方向上的generalization
- 1-frame input -> equal performance to full observed DQN
- MDP to POMDP
- lstm时间复杂度
- 实验方法
- 结果: 有些高
- 训练细节
- buffer size
- optimizer
- lstm gradient clip
- 测试网络输入
一次 1-frame (参考: http://arxiv.org/abs/1609.05521)