论文阅读(DRQN):Deep Recurrent Q-Learning for Partially Observable MDPs

简单概括该文:
a、创新之处:提出QRQN结构:DQN+LSTM
b、创新原因:DQN有两个缺陷——1、经验池内存有限制;2、每个决策点都需要完整的游戏界面。
c、改动措施:将DQN的第一个全连接层换成LSTM网络

Introduction:
DQN只取了过去四帧(即四张图)作为输入,而如果游戏需要四帧以上的记忆,则将出现部分可观测马尔科夫性(Partially-Observable Markov Decision Process ,POMDP),例如Pong游戏——仅显示棍子和球的位置缺少球的速度。这会造成信息特征的不完整,状态信息有noisy。而行进方向需要查看球的行进,而不是当前状态(球在一个时刻的位置),这就不满足马尔科夫性中的:未来状态仅取决于当前状态。

因为DQN在面对不完全的状态(incomplete state),性能会下降,所以引入LSTM用来弥补闪烁的游戏界面和卷积层缺乏的速度检测,DRQN更擅长解决信息丢失问题。

DQN:
其与常规的强化学习Q-Learning最大的不同就是,DQN在初始化的时候不再生成一个完整的Q-Table,每一个观测环境的Q值都是通过神经网络生成的,即通过输入当前环境的特征Features来得到当前环境每个动作的Q-Value,并且以这个Q-Value基准进行动作选择。

loss = 目标值网络 — 当前值网络(评估值网络)

环境的当前状态输入到当前值网络,目标值网络根据当前状态估计出当智能体做出动作以后(即下一个状态的时候)最大的Q值,然后进行实际的动作选择。

DQN直接更新网络,不像Q-learning一样更新Q表。

Partial Observation(部分可观测)
POMDP被描述为6-元组(S,A,P,R,Ω,O),S,A,P,R,就是鼻祖论文中状态,动作,转移概率,奖赏,但我们现在获得的状态不完整为o∈Ω,并且服从o~O(s)分布。

由于我们获得的状态不完整使得现在预测的Q值不准,Q(o,a|θ)≠Q(s,a|θ),我们的目标就是缩小这两者之间的差距使得Q值预测更准确。

DRQN结构:
在这里插入图片描述
结论与总结:
如下图所示在Frostbite游戏中DRQN表现更好,而在Beam Rider游戏中DQN表现更好。因此对于那些会引起状态部分观测问题的游戏,DRQN性能比DQN性能好,但对于状态可完全观测的游戏而言,DRQN反而不如DQN。
在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值