论文笔记7:Prioritized Experience Replay

本文介绍了优先体验回放(Prioritized Experience Replay)在深度强化学习中的应用,强调了重要经验的优先回放对算法效率的提升。通过使用TD-error作为优先级指标,解决了传统随机回放忽视经验重要性的缺点。文章探讨了stochastic prioritization以保持样本多样性,并提出annealing the bias方法来减少引入的偏差,从而改善算法的收敛性和性能。
摘要由CSDN通过智能技术生成

参考资料:

https://www.baidu.com/link?url=Ea9z7rbX4jMNcr01YuTgqiRn2AVofeznnVuNTUdMmZvjqZ_odCdrm13FiahPkyur&wd=&eqid=9dd06a3a00005cfa000000035b2c5e1d

Prioritized Experience Replay (DQN) (Tensorflow) - 强化学习 Reinforcement Learning | 莫烦Python

如有错误请指出,谢谢~

知乎同名:https://www.zhihu.com/people/uuummmmiiii/activities


创新点:在抽取经验池中过往经验样本时,采取按优先级抽取的方法

改进:同上

改进原因:原来随机抽取经验忽略了经验之间的重要程度,实际上如人脑中一定会有更为重要的记忆

带来益处:使得算法更快收敛,效果更好


Abstract

经验回放使得在线强化学习的agent能够记住和重新利用过去的经验,在以往的研究中,过去的经验(transition,经验池中的一条记录,表示为元祖形式,包含state,action,reward,discount factor,next state),只是通过均匀采样来获取。然而这种方法,只要原来有过这个经验,那么就跟别的经验以相同的概率会被再次利用,忽略了这些经验各自的重要程度。

本文我们提出了一种优先回放结构,这种方法可以使重要的经验被回放的概率大,从而使学习变得更有效率。

Introduction

introduction开始介绍了经验回放机制的产生:

1、更新完参数立刻丢掉输入输出的数据:

造成两个问题:这种强相关的更新打破了很多常用的基于随机梯度下降算法的所应该保证的独立同分布特性,容易造成算法不稳定或者发散;放弃了一些在未来有用的需要重放学习的一些稀有经验。

2、1992年提出Experience Replay,解决了这两个问题,并在2013年提出的DQN(Mnih et al.)中应用,原始DQN中只是从经验池中随机取样进行回放利用。经验回放虽然可以减少agent学习所需要的经验数量(输入的data),但会增加计算量与内存,但是增加的计算量与内存对于agent与环境交互而言更cheaper。

Experience replay liberates online learning agents from processing transitions in the exact order they are experienced.

3、这里我们提出如何对经验标记优先级,来使重放比单纯的随机抽样回放更有效。

Prioritized replay further liberates agents from considering transitions with the same frequency that they are experienced.

 

我们用TD-error来表示优先级的大小。

1、这种方式会丢失多样性,我们用stochasitic prioritization(proportional prioritization和rank-based prioritization)来弥补;

2、这种方式也会引入bias,我们用importance-sample weights来弥补


Prioritized Replay

在利用经验池的时候会有两种选择:一是选择哪些经验进行存储,二是如何进行回放。我们仅研究第二个。分四步逐渐提出我们加入prioritized experience replay的算法。

3.1 A motivate example 一个给我们提供灵感的例子

作者为理解首先介绍了一个人工设置的称为‘Blind Cliffwalk’环境,这个环境体现了在reward很少的时候exploration的困难之处(exploration,个人理解在贪婪算法 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值