Deep Recurrent Q-Learning for Partially Observable MDPs笔记
文章:Deep Recurrent Q-Learning for Partially Observable MDPs
直通:link
摘要
主要思想就是在DQN基础上加入Recurrent LSTM。之前DQN会限制于memory(内存大小),同时决策也需要获到完整的观测信息,而实际环境中观测信息可能并不完全。为解决这些问题,文章加入LSTM代替原有DQN中的全连接层,形成Deep Recurrent Q-Network (DRQN),结合记忆信息并且在POMDP(Partially Observable Markov Decision Process)的游戏中综合表现优于原始的DQN。实验发现当训练使用complete observation而测试时使用partial observation时,DRQN模型表现下降的程度比DQN也要小。因此DRQN相对于DQN对于不同程度观测数据的适用能力也就更强,对缺失的数据更不敏感。
相关工作
1.DQN
其中Q-value迭代公式:
Loss function以及网络参数的更新:
2.Partial Observability
POMDP只获得环境的部分观测信息,例如partial glimpses of the underlying system state。不同于马尔可夫决策过程的四元组表示 ( S , A , P , R ) (S,A,P,R)