2015 - Deep recurrent q-learning for partially observable MDPs

地址:https://arxiv.org/abs/1507.06527

在这里插入图片描述

解决什么

  • 内存限制
  • 每次决策依赖于观测完整的游戏画面

解决办法

使用一个 recurrent LSTM 替代全连接层,称为 DRQN(Deep Recurrent Q-Network):

DQNDRQN

POMDP

文章介绍了 POMDP(partially observation MDP),进而引入 Flickering Atari Games。游戏中的每一帧有 0.5 的概率是模糊的,不可观测,有 0.5 的概率是完整清晰的。

MDPPOMDP

Evalution on Standard Atari Games

训练环境和 dqn 相同,MDP 环境,使用连续 4 帧作为输入,所以在 MDP 上的性能不会超过 DQN。

MDP to POMDP Generalization

将在标准 MDP 环境下训练的 DRQN 和 DQN 放在 POMDP 环境下去测试。

trainevaluation

在丢失信息的情况下,DRQN 和 DQN 性能均受到影响,但是 DRQN 受到的影响较小,因此体现出 DRQN 的 robustness。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值