[RL 4] Reinforcement Learning An Introduction: Ch13 Policy Gradient Algorithm

最新推荐文章于 2022-05-01 09:00:00 发布

xyp99

最新推荐文章于 2022-05-01 09:00:00 发布

阅读量137

点赞数

分类专栏： DRL 算法

本文链接：https://blog.csdn.net/xyp99/article/details/109282491

版权

DRL 算法专栏收录该内容

16 篇文章 3 订阅

订阅专栏

                    
                    Chapter 13 策略梯度算法 
13.1 PG优点 
stochastic policy 
  PG学习stochastic policy(policy输出分布, 通过采样得到action); 而value-based算法采用 
        
            ϵ 
           
           \epsilon 
          
       ϵ-greedy policy
部分研究问题中, optimal policy为stochastic policy
 
exploration 
  随机策略有利于exploration
policy可以逐渐变deterministic, 即自动调整exploration的程度; 而value-based算法中(如SRARS, Q-learning) 
        
            ϵ 
           
           \epsilon 
          
       ϵ一般不为0(或者不能自学习减小 
        
            ϵ 
           
           \epsilon 
          
       ϵ)
 
适用于连续动作空间 
  策略提升定理也使用与连续动作空间, 证明见:https://web.stanford.edu/class/cme241/lecture_slides/PolicyGradient.pdf
 
部分问题中policy比value function更好近似
可以利用prior knowledge(desired policy等)表示policy
有理论依据 
  策略梯度定理
 
13.2 策略提升定理(Policy Gradient Theorem) 
Settings 
  episode
 
            γ 
           
            = 
           
            1 
           
           \gamma=1 
          
       γ=1
discrete action
 
背景 
  state distribution  
        
            μ 
           
            ( 
           
            s 
           
            ) 
           
           \mu(s) 
          
       μ(s)  
        
             ρ 
            
             π 
            
            ( 
           
            s 
           
            ) 
           
           \rho^{\pi}(s) 
          
       ρπ(s)
performance measure  
        
            J 
           
            ( 
           
            θ 
           
            ) 
           
            ≐ 
           
             v 
            
              π 
             
              θ 
             
             ( 
            
              s 
             
              0 
             
             ) 
            
           J(\boldsymbol{\theta}) \doteq v_{\pi_{\theta}}\left(s_{0}\right) 
          
       J(θ)≐vπθ​​(s0​)
 
PGT 
   
            ∇ 
           
            J 
           
            ( 
           
            θ 
           
            ) 
           
            ∝ 
           
             ∑ 
            
             s 
            
            μ 
           
            ( 
           
            s 
           
            ) 
           
             ∑ 
            
             a 
            
             q 
            
             π 
            
            ( 
           
            s 
           
            , 
           
            a 
           
            ) 
           
            ∇ 
           
            π 
           
            ( 
           
            a 
           
            ∣ 
           
            s 
           
            , 
           
            θ 
           
            ) 
           
           \nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \boldsymbol{\theta}) 
          
       ∇J(θ)∝∑s​μ(s)∑a​qπ​(s,a)∇π(a∣s,θ) 
    比例系数可被learning rate代替
 
             ∇ 
            
             θ 
            
            J 
           
             ( 
            
              π 
             
              θ 
             
             ) 
            
            = 
           
             ∫ 
            
             S 
            
             ρ 
            
             π 
            
            ( 
           
            s 
           
            ) 
           
             ∫ 
            
             A 
            
             ∇ 
            
             θ 
            
             π 
            
             θ 
            
            ( 
           
            a 
           
            ∣ 
           
            s 
           
            ) 
           
             Q 
            
             π 
            
            ( 
           
            s 
           
            , 
           
            a 
           
            ) 
           
            d 
           
            a 
           
            d 
           
            s 
           
           \nabla_{\theta} J\left(\pi_{\theta}\right)=\int_{\mathcal{S}} \rho^{\pi}(s) \int_{\mathcal{A}} \nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi}(s, a) \mathrm{d} a \mathrm{d} s 
          
       ∇θ​J(πθ​)=∫S​ρπ(s)∫A​∇θ​πθ​(a∣s)Qπ(s,a)dads
 
13.3 REINFORCEMENT: MC PG 
REINFORCEMENT算法 
  思路 
    state distribution可以写成期望
a可以凑成期望
q可以用return Gt代替(无偏估计)
综上, 策略梯度可以写成期望中全部是随机变量的形式, 所以可以通过采样来估计期望
 
优点 
    无偏估计
 
缺点 
    由于使用MC 
      只适用于episode
方差大->学习慢 todo
 
13.4 REINFORCEMENT with baseline 
Gt可以减去bt可以减少方差, 并且不改变梯度的期望
bt 
  满足与a无关
一般与s有关, V(s) 
    因为不同s的value不同
学习V(s)时用的MC方法, 而不是TD
 
13.5 Actor-Critic Methods 
算法 
  bootstrap critic 代替REINFORCE中的Gt
 
优点 
  适用于continue task
可以full-online(即one step, 不reuse transition) 
    注: MC不是full-online
 
reduce variance -> accelerate learning todo
 
13.6 PG for continues problems 
PDT for continuing problems
 
13.7 policy parameterization for continous actions 
同样可以有PGT
 
Summay 
AC算法 
  natural-gradient methods
DPG
off-policy PG
entropy
 
References 
  PG overview (2009)