分布式优先级经验回放（Distributed Prioritized Experience Replay）

格雷拉-皮奇

于 2021-03-09 17:00:30 发布

阅读量2.7k

点赞数 2

分类专栏：论文强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43897187/article/details/114587673

版权

论文链接：我是传送门

背景

传统对经验池进行均匀采用很明显是不合适的，因为有的经验是更加有帮助的，因此，提出了优先级经验回放（对经验设置优先级，按优先级大小采样）。本文对优先级经验回放采用分布式的设置，通过分布式获取多样性经验，达到更好的效果。
分布式强化学习通常是分布式求解梯度，并返回梯度信息。例如A3C，结构图如下，其中WORKERS给GLOBAL NETWORK提供的是权重更新的梯度，而本文的想法是WORKERS给GLOBAL NETWORK提供经验（transition）。
在这里插入图片描述

为什么分布式经验回放比分布式求梯度效果好？

其中一个原因是：初始化很多个actor后，由于梯度信息代表的了当前网络更新参数的方向，就算我们初始化所有actor都一样，但是如果有的actor训练比较快，那它也会优于其它actor网络，但是梯度信息会导致我们更新参数的方向存在较大差异。说白了，就是梯度信息的时效性比较短，较差的actor提供的梯度信息相比于好的actor已经没有价值了。
但是经验不一样啊，经验以（s,a,s’,r）存储，设想一下，假如一个差的actor产生了一个有价值的经验那很好，假如产生了没有价值的经验，首先该经验是没有价值的

最低0.47元/天解锁文章

格雷拉-皮奇

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。