论文阅读笔记之Massively Parallel Methods for Deep Reinforcement Learning
本文创新点:提出了一个对于深度强化学习的大规模分布式架构Gorila(General Reinforcement learning Architecture)
架构组成:用于产生behavior的并行actor组;
从经验池学习的并行learner组;
代表值函数和行为策略的分布式神经网络;
分布式经验池;
实验效果:训练效果好(进行了49个游戏,在41个游戏上超过了原DQN架构);
减少了训练时间
缺点:造价高,难搞
分布式架构Gorila
Actors:
该架构有Nact个不同的actor,并分别应用在Nact个相同的环境中
每个actor i 有自己的行为,并产生经验所以每个a