Deep Recurrent Q-Learning for Partially Observable MDPs笔记

文章:Deep Recurrent Q-Learning for Partially Observable MDPs

直通:link

摘要

主要思想就是在DQN基础上加入Recurrent LSTM。之前DQN会限制于memory(内存大小),同时决策也需要获到完整的观测信息,而实际环境中观测信息可能并不完全。为解决这些问题,文章加入LSTM代替原有DQN中的全连接层,形成Deep Recurrent Q-Network (DRQN),结合记忆信息并且在POMDP(Partially Observable Markov Decision Process)的游戏中综合表现优于原始的DQN。实验发现当训练使用complete observation而测试时使用partial observation时,DRQN模型表现下降的程度比DQN也要小。因此DRQN相对于DQN对于不同程度观测数据的适用能力也就更强,对缺失的数据更不敏感。

相关工作

1.DQN

其中Q-value迭代公式:
在这里插入图片描述
Loss function以及网络参数的更新:
在这里插入图片描述

2.Partial Observability

POMDP只获得环境的部分观测信息,例如partial glimpses of the underlying system state。不同于马尔可夫决策过程的四元组表示 ( S , A , P , R ) (S,A,P,R)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值