策略梯度法

策略梯度法

  • 策略近似及其优势
    • 在之前的学习中,总是依赖于动作价值函数的学习,可以称为间接强化学习
    • 在策略梯度方法中,通过直接对策略进行参数化,对策略参数进行学习,称为直接强化学习
    • 使用这种方法的优势有:
      • 动作选择更具有柔性,任何动作选择不是非1即0,而是对应一个概率
      • 对于最优策略是一个随机策略的情景,策略近似相较于动作价值求解更具优势,可以以不同的概率选择随机策略
  • 策略梯度定理
    • 在分幕式问题中,性能指标可以用策略下初始状态的状态价值定义
    • 其梯度的求解具有很好的理论基础,具体证明见P321

  • REINFORCE:蒙特卡洛策略梯度
    • 蒙特卡洛的精髓便是用均值代替期望
    • 分别把真实状态、动作引入进来,把对随机变量所有可能取值的求和运算替换为求策略下的期望,再对期望进行采样
    • 推到下得到随机梯度上升:

  • 带有基线的REINFORCE
    • 蒙特卡洛算法虽然有较好的收敛特性,但由于方差问题,其收敛速度较慢
    • 出于此考虑,可以在价值估计时添加一基线来减小方差

    • 这里可以使用状态价值函数作为基线,也可以证明这种情况下方差的值最小
  • “行动器-评判器”方法(Actor-Critic RL)
    • 在上一步采用基线时,并没有用于自举操作(用后继各个状态的价值估计值来更新当前某个状态的价值估计值)
    • 使用时序差分算法可以改善蒙特卡洛方法大方差的缺陷,提高收敛速度
    • 这里便可以使用时序差分的单步、多步算法:

  • 持续性问题的策略梯度
    • 对于持续性问题,首先要重新定义性能

    • 证明见P331
  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值