异步优势行动者评论家算法(A3C)的选择原因

  1. A3C算法利用CPU多线程的功能并行、异步地执行多个Agent。因 此在任意时刻,并行的Agent都将会经历许多不同的状态,去除了训练过程中产生的状态转移样本之间的关联性。因此这种低消耗的异步执行方式可以很好地替代经验回放机制。//经验回放机制。目的:消除训练数据之间的相关性。原因:非线性网络表示值函数时出现的不稳定、策略梯度方法与神经网络结合时出现的不稳定性。缺点:(1)agent与环境的每次实时交互都需要耗费很多的内存和计算力;(2)经验回放机制要求agent采用离策略(off-policy)方法来进行学习,而离策略方法只能基于旧策略生成的数据进行更新。
  2. A3C算法在训练时降低了对硬件的要求。深度策略梯度算法十分依赖计算能力很强的图形处理器,而A3C算法在实际的操作过程中只需要一个标准的多核CPU。A3C算法通过应用多线程技术,降低了模型对硬件的需求。利用这种方法,可以不再依赖经验池来存储历史经验,极大地缩短了训练的时间。
  3. 是目前最通用和最成功的一种DRL算法。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值