异步优势行动者评论家算法（A3C）的选择原因

最新推荐文章于 2023-03-11 19:11:25 发布

叫我彦祖

最新推荐文章于 2023-03-11 19:11:25 发布

阅读量825

点赞数

文章标签：深度学习强化学习机器学习

本文链接：https://blog.csdn.net/weixin_44649536/article/details/118381807

版权

A3C算法利用CPU多线程的功能并行、异步地执行多个Agent。因此在任意时刻，并行的Agent都将会经历许多不同的状态，去除了训练过程中产生的状态转移样本之间的关联性。因此这种低消耗的异步执行方式可以很好地替代经验回放机制。//经验回放机制。目的：消除训练数据之间的相关性。原因：非线性网络表示值函数时出现的不稳定、策略梯度方法与神经网络结合时出现的不稳定性。缺点：（１）agent与环境的每次实时交互都需要耗费很多的内存和计算力；（２）经验回放机制要求agent采用离策略（off-policy）方法来进行学习，而离策略方法只能基于旧策略生成的数据进行更新。
A3C算法在训练时降低了对硬件的要求。深度策略梯度算法十分依赖计算能力很强的图形处理器，而A3C算法在实际的操作过程中只需要一个标准的多核CPU。A3C算法通过应用多线程技术，降低了模型对硬件的需求。利用这种方法，可以不再依赖经验池来存储历史经验，极大地缩短了训练的时间。
是目前最通用和最成功的一种DRL算法。

关注