论文阅读（DRQN）：Deep Recurrent Q-Learning for Partially Observable MDPs

最新推荐文章于 2024-04-23 09:50:59 发布

工藤旧一

最新推荐文章于 2024-04-23 09:50:59 发布

阅读量1.6k

点赞数 3

分类专栏： # 项目经验文章标签：游戏人工智能神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45459911/article/details/104860979

版权

简单概括该文：
a、创新之处：提出QRQN结构：DQN+LSTM
b、创新原因：DQN有两个缺陷——1、经验池内存有限制；2、每个决策点都需要完整的游戏界面。
c、改动措施：将DQN的第一个全连接层换成LSTM网络

Introduction：
DQN只取了过去四帧（即四张图）作为输入，而如果游戏需要四帧以上的记忆，则将出现部分可观测马尔科夫性（Partially-Observable Markov Decision Process ,POMDP)，例如Pong游戏——仅显示棍子和球的位置缺少球的速度。这会造成信息特征的不完整，状态信息有noisy。而行进方向需要查看球的行进，而不是当前状态（球在一个时刻的位置），这就不满足马尔科夫性中的：未来状态仅取决于当前状态。

因为DQN在面对不完全的状态（incomplete state），性能会下降，所以引入LSTM用来弥补闪烁的游戏界面和卷积层缺乏的速度检测，DRQN更擅长解决信息丢失问题。

DQN：
其与常规的强化学习Q-Learning最大的不同就是，DQN在初始化的时候不再生成一个完整的Q-Table，每一个观测环境的Q值都是通过神经网络生成的，即通过输入当前环境的特征Features来得到当前环境每个动作的Q-Value，并且以这个Q-Value基准进行动作选择。

loss = 目标值网络 — 当前值网络（评估值网络）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。