- A3C算法利用CPU多线程的功能并行、异步地执行多个Agent。因 此在任意时刻,并行的Agent都将会经历许多不同的状态,去除了训练过程中产生的状态转移样本之间的关联性。因此这种低消耗的异步执行方式可以很好地替代经验回放机制。//经验回放机制。目的:消除训练数据之间的相关性。原因:非线性网络表示值函数时出现的不稳定、策略梯度方法与神经网络结合时出现的不稳定性。缺点:(1)agent与环境的每次实时交互都需要耗费很多的内存和计算力;(2)经验回放机制要求agent采用离策略(off-policy)方法来进行学习,而离策略方法只能基于旧策略生成的数据进行更新。
- A3C算法在训练时降低了对硬件的要求。深度策略梯度算法十分依赖计算能力很强的图形处理器,而A3C算法在实际的操作过程中只需要一个标准的多核CPU。A3C算法通过应用多线程技术,降低了模型对硬件的需求。利用这种方法,可以不再依赖经验池来存储历史经验,极大地缩短了训练的时间。
- 是目前最通用和最成功的一种DRL算法。
异步优势行动者评论家算法(A3C)的选择原因
最新推荐文章于 2023-03-11 19:11:25 发布