地址:https://arxiv.org/abs/1507.06527
解决什么
- 内存限制
- 每次决策依赖于观测完整的游戏画面
解决办法
使用一个 recurrent LSTM 替代全连接层,称为 DRQN(Deep Recurrent Q-Network):
DQN | DRQN |
---|---|
POMDP
文章介绍了 POMDP(partially observation MDP),进而引入 Flickering Atari Games。游戏中的每一帧有 0.5 的概率是模糊的,不可观测,有 0.5 的概率是完整清晰的。
MDP | POMDP |
---|---|
Evalution on Standard Atari Games
训练环境和 dqn 相同,MDP 环境,使用连续 4 帧作为输入,所以在 MDP 上的性能不会超过 DQN。
MDP to POMDP Generalization
将在标准 MDP 环境下训练的 DRQN 和 DQN 放在 POMDP 环境下去测试。
train | evaluation |
---|---|
在丢失信息的情况下,DRQN 和 DQN 性能均受到影响,但是 DRQN 受到的影响较小,因此体现出 DRQN 的 robustness。