Q Actor-Critic 算法
用 Qπ(st,at) 来估计当前的价值,注意这里的输入是状态和动作,而不单单是状态,输出的是单个值,也可以用 Qϕ(st,at) 表示,其中 ϕ 表示 Critic 网络的参数。
所有 Actor-Critic 算法的基本通用架构:
A3C 算法中增加了多个进程,每一个进程都拥有一个独立的网络和环境以供交互,并且每个进程每隔一段时间都会将自己的参数同步到全局网络中,这样就能提高训练效率。
广义优势估计( generalized advantage estimation,GAE ),在这里我们也可以引入 λ ,结合多步( n-step )的折扣回报来改进优势函数,形成一种新的估计方式。