Chapter 13 策略梯度算法
13.1 PG优点
- stochastic policy
- PG学习stochastic policy(policy输出分布, 通过采样得到action); 而value-based算法采用 ϵ \epsilon ϵ-greedy policy
- 部分研究问题中, optimal policy为stochastic policy
- exploration
- 随机策略有利于exploration
- policy可以逐渐变deterministic, 即自动调整exploration的程度; 而value-based算法中(如SRARS, Q-learning) ϵ \epsilon ϵ一般不为0(或者不能自学习减小 ϵ \epsilon ϵ)
- 适用于连续动作空间
- 策略提升定理也使用与连续动作空间, 证明见:https://web.stanford.edu/class/cme241/lecture_slides/PolicyGradient.pdf
- 部分问题中policy比value function更好近似
- 可以利用prior knowledge(desired policy等)表示policy
- 有理论依据
- 策略梯度定理
13.2 策略提升定理(Policy Gradient Theorem)
- Settings
- episode
- γ = 1 \gamma=1 γ=1
- discrete action
- 背景
- state distribution μ ( s ) \mu(s) μ(s) ρ π ( s ) \rho^{\pi}(s) ρπ(s)
- performance measure J ( θ ) ≐ v π θ ( s 0 ) J(\boldsymbol{\theta}) \doteq v_{\pi_{\theta}}\left(s_{0}\right) J(θ)≐vπθ(s0)
- PGT
-
∇
J
(
θ
)
∝
∑
s
μ
(
s
)
∑
a
q
π
(
s
,
a
)
∇
π
(
a
∣
s
,
θ
)
\nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \boldsymbol{\theta})
∇J(θ)∝∑sμ(s)∑aqπ(s,a)∇π(a∣s,θ)
- 比例系数可被learning rate代替
- ∇ θ J ( π θ ) = ∫ S ρ π ( s ) ∫ A ∇ θ π θ ( a ∣ s ) Q π ( s , a ) d a d s \nabla_{\theta} J\left(\pi_{\theta}\right)=\int_{\mathcal{S}} \rho^{\pi}(s) \int_{\mathcal{A}} \nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi}(s, a) \mathrm{d} a \mathrm{d} s ∇θJ(πθ)=∫Sρπ(s)∫A∇θπθ(a∣s)Qπ(s,a)dads
-
∇
J
(
θ
)
∝
∑
s
μ
(
s
)
∑
a
q
π
(
s
,
a
)
∇
π
(
a
∣
s
,
θ
)
\nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \boldsymbol{\theta})
∇J(θ)∝∑sμ(s)∑aqπ(s,a)∇π(a∣s,θ)
13.3 REINFORCEMENT: MC PG
- REINFORCEMENT算法
- 思路
- state distribution可以写成期望
- a可以凑成期望
- q可以用return Gt代替(无偏估计)
- 综上, 策略梯度可以写成期望中全部是随机变量的形式, 所以可以通过采样来估计期望
- 优点
- 无偏估计
- 缺点
- 由于使用MC
- 只适用于episode
- 方差大->学习慢 todo
- 由于使用MC
- 思路
13.4 REINFORCEMENT with baseline
- Gt可以减去bt可以减少方差, 并且不改变梯度的期望
- bt
- 满足与a无关
- 一般与s有关, V(s)
- 因为不同s的value不同
- 学习V(s)时用的MC方法, 而不是TD
13.5 Actor-Critic Methods
- 算法
- bootstrap critic 代替REINFORCE中的Gt
- 优点
- 适用于continue task
- 可以full-online(即one step, 不reuse transition)
- 注: MC不是full-online
- reduce variance -> accelerate learning todo
13.6 PG for continues problems
- PDT for continuing problems
13.7 policy parameterization for continous actions
- 同样可以有PGT
Summay
- AC算法
- natural-gradient methods
- DPG
- off-policy PG
- entropy
- References
- PG overview (2009)