Actor-Critic算法
Actor-Critic算法是一种TD method。结合了value-based和policy-based方法。policy网络是actor(行动者),输出动作(action-selection)。value网络是critic(评价者),用来评价actor网络所选动作的好坏(action value estimated),并生成TD_error信号同时指导actor网络critic网络的更新。下图为Actor-Critic算法的一个架构图,DDPG就是这一类算法。(参见参看文献4)
Actor-Critic算法架构图
DDPG算法
具体算法伪代码如下:
DDPG算法
参考文献: