深度增强学习(DQN)的各种改进(一)

DeepMind2013年提出DQN模型称为NIPS DQN,主要是增加了经验回放(experience replay)的功能,上篇文章已经介绍。此后,相继有各种改进模型发表。


Nature DQN

DeepMind2015年提出,论文:Human-level control through deep reinforcement learning。主要的改进是增加Target Q网络。也就是我们使用一个单独的Q网络来计算目标Q值,这样做的目的是为了减少目标值与当前值的相关性。相应的损失函数如下:

深度增强学习(DQN)的各种改进(一)

这里Target Q网络的结构和当前的Q网络结构一样,只不过参数不一样,如上面公式中的w-。那么Target Q网络的参数得到呢?还是从Q网络中来,只不过是延迟更新。也就是每次训练了一段时间后再将当前Q网络的参数值复制给Target Q网络。

具体算法如下:

深度增强学习(DQN)的各种改进(一)

改进的效果还是不错的,下图引用自Nature的论文。

深度增强学习(DQN)的各种改进(一)

 

其他改进:

深度增强学习(DQN)的各种改进(一)

上图选自David SilverICML 2016中的Tutorial::深度增强学习Tutorial

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值