问题:
RL早期的时候表现不好,特别是在online训练的早期。
背景:
Bayesian sample-efficient已经提出,
value-based和policy-based方法区别:
policy更容易收敛,因为value改一点点可能造成policy空间的大大变化。policy因为*基于蒙特卡洛预测(?),*很容易收敛到次优解。本文使用policy。
介绍基础的actor-critic算法:
Aw是critic, π θ \pi_{\theta} π
问题:
RL早期的时候表现不好,特别是在online训练的早期。
背景:
Bayesian sample-efficient已经提出,
value-based和policy-based方法区别:
policy更容易收敛,因为value改一点点可能造成policy空间的大大变化。policy因为*基于蒙特卡洛预测(?),*很容易收敛到次优解。本文使用policy。
介绍基础的actor-critic算法:
Aw是critic, π θ \pi_{\theta} π