Deep Recurrent Q-Learning for Partially Observable MDPs笔记

最新推荐文章于 2022-10-31 20:33:14 发布

yybbyy123

最新推荐文章于 2022-10-31 20:33:14 发布

阅读量540

点赞数

分类专栏：强化学习小学生文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/yybbyy123/article/details/109481094

版权

Deep Recurrent Q-Learning for Partially Observable MDPs笔记

摘要
相关工作
- 1.DQN
- 2.Partial Observability
方法
- 1. DRQN架构
- 2.Stable Recurrent Updates
实验
- Results：
总结

文章：Deep Recurrent Q-Learning for Partially Observable MDPs

直通：link

摘要

主要思想就是在DQN基础上加入Recurrent LSTM。之前DQN会限制于memory(内存大小)，同时决策也需要获到完整的观测信息，而实际环境中观测信息可能并不完全。为解决这些问题，文章加入LSTM代替原有DQN中的全连接层，形成Deep Recurrent Q-Network (DRQN)，结合记忆信息并且在POMDP(Partially Observable Markov Decision Process)的游戏中综合表现优于原始的DQN。实验发现当训练使用complete observation而测试时使用partial observation时，DRQN模型表现下降的程度比DQN也要小。因此DRQN相对于DQN对于不同程度观测数据的适用能力也就更强，对缺失的数据更不敏感。