函数逼近对强化学习至关重要,但到目前为止,逼近值函数并从中确定策略的标准方法在理论上是难以解决的。本文探索了一种替代方法,在这种方法中,策略由它自己的函数逼近器显式表示,独立于值函数,并根据相对于策略参数的期望奖励梯度进行更新。威廉姆斯的强化方法和演员-评论家方法就是这种方法的例子。主要的新结果是,梯度可以写成一种适合在近似动作值或优势函数的帮助下从经验中进行估计的形式。利用这个结果,首次证明了具有任意可微函数逼近的策略迭代收敛于局部最优策略。
long-term expected reward per step, ρ(π)和 the value of a state–action pair given a policy
Theorem 1 (Policy Gradient).
对于任何一种MDP,无论是在平均奖励还是开始状态的公式中
2 Policy Gradient with Approximation
Convergence of Policy Iteration with Function Approximation
给出定理2,我们可以首次证明一种具有函数逼近的策略迭代形式收敛于局部最优策略。