[RL 4] Reinforcement Learning An Introduction: Ch13 Policy Gradient Algorithm

Chapter 13 策略梯度算法

13.1 PG优点

  1. stochastic policy
    1. PG学习stochastic policy(policy输出分布, 通过采样得到action); 而value-based算法采用 ϵ \epsilon ϵ-greedy policy
    2. 部分研究问题中, optimal policy为stochastic policy
  2. exploration
    1. 随机策略有利于exploration
    2. policy可以逐渐变deterministic, 即自动调整exploration的程度; 而value-based算法中(如SRARS, Q-learning) ϵ \epsilon ϵ一般不为0(或者不能自学习减小 ϵ \epsilon ϵ)
  3. 适用于连续动作空间
    1. 策略提升定理也使用与连续动作空间, 证明见:https://web.stanford.edu/class/cme241/lecture_slides/PolicyGradient.pdf
  4. 部分问题中policy比value function更好近似
  5. 可以利用prior knowledge(desired policy等)表示policy
  6. 有理论依据
    1. 策略梯度定理

13.2 策略提升定理(Policy Gradient Theorem)

  1. Settings
    1. episode
    2. γ = 1 \gamma=1 γ=1
    3. discrete action
  2. 背景
    1. state distribution μ ( s ) \mu(s) μ(s) ρ π ( s ) \rho^{\pi}(s) ρπ(s)
    2. performance measure J ( θ ) ≐ v π θ ( s 0 ) J(\boldsymbol{\theta}) \doteq v_{\pi_{\theta}}\left(s_{0}\right) J(θ)vπθ(s0)
  3. PGT
    1. ∇ J ( θ ) ∝ ∑ s μ ( s ) ∑ a q π ( s , a ) ∇ π ( a ∣ s , θ ) \nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \boldsymbol{\theta}) J(θ)sμ(s)aqπ(s,a)π(as,θ)
      1. 比例系数可被learning rate代替
    2. ∇ θ J ( π θ ) = ∫ S ρ π ( s ) ∫ A ∇ θ π θ ( a ∣ s ) Q π ( s , a ) d a d s \nabla_{\theta} J\left(\pi_{\theta}\right)=\int_{\mathcal{S}} \rho^{\pi}(s) \int_{\mathcal{A}} \nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi}(s, a) \mathrm{d} a \mathrm{d} s θJ(πθ)=Sρπ(s)Aθπθ(as)Qπ(s,a)dads

13.3 REINFORCEMENT: MC PG

  1. REINFORCEMENT算法
    1. 思路
      1. state distribution可以写成期望
      2. a可以凑成期望
      3. q可以用return Gt代替(无偏估计)
      4. 综上, 策略梯度可以写成期望中全部是随机变量的形式, 所以可以通过采样来估计期望
    2. 优点
      1. 无偏估计
    3. 缺点
      1. 由于使用MC
        1. 只适用于episode
        2. 方差大->学习慢 todo

13.4 REINFORCEMENT with baseline

  1. Gt可以减去bt可以减少方差, 并且不改变梯度的期望
  2. bt
    1. 满足与a无关
    2. 一般与s有关, V(s)
      1. 因为不同s的value不同
      2. 学习V(s)时用的MC方法, 而不是TD

13.5 Actor-Critic Methods

  1. 算法
    1. bootstrap critic 代替REINFORCE中的Gt
  2. 优点
    1. 适用于continue task
    2. 可以full-online(即one step, 不reuse transition)
      1. 注: MC不是full-online
    3. reduce variance -> accelerate learning todo

13.6 PG for continues problems

  1. PDT for continuing problems

13.7 policy parameterization for continous actions

  1. 同样可以有PGT

Summay

  1. AC算法
    1. natural-gradient methods
    2. DPG
    3. off-policy PG
    4. entropy
  2. References
    1. PG overview (2009)
强化学习是一种机器学习方法,它致力于教会智能体在一个动态环境中做出最优决策。在强化学习中,智能体通过不断与环境进行交互来学习,并且根据环境的反馈来调整自己的行为。 强化学习的一个核心概念是“奖励”,它是环境对智能体行为的评价。智能体的目标是通过选择能够最大化长期奖励累积的行为策略来学习。在学习的过程中,智能体通过试错和学习的方法逐步改进自己的决策策略。 强化学习涉及到很多基本元素,比如:状态、动作、策略和价值函数。状态是指代表环境的信息,动作是智能体可以执行的动作选择,策略是智能体根据当前状态选择动作的方法,价值函数是用来评估每个状态或动作的价值。这些元素相互作用,并通过学习算法来更新和改善,使得智能体能够做出更好的决策。 强化学习有很多不同的算法,其中最著名的是Q-learning和Deep Q-Network(DQN)。Q-learning是一种基于值函数的学习方法,它通过不断更新状态-动作对的价值来优化策略。而DQN则是在Q-learning的基础上引入了深度神经网络,使得智能体能够处理更复杂的环境和任务。 总之,强化学习是一种通过交互式学习来教会智能体做出最优决策的方法。它在许多领域有广泛的应用,比如人工智能、自动驾驶、游戏AI等。通过不断的试错和学习,智能体可以不断改进自己的行为策略,达到最优性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值