策略梯度算法学习笔记

 策略梯度算法是一类直接对策略进行优化的算法,但它的优化目标与基于价值的算法是一样的,都是累积的价值期望 V∗(s) 。我们通常用 πθ(a|s) 来表示策略,即在状态 s 下采取动作 a 的概率分布 p(a|s),其中 θ 是我们要去求出来的模型参数。

蒙特卡洛策略梯度算法,即我们可以不必采样所有的轨迹,而是采样一部分且数量足够多的轨迹,然后利用这些轨迹的平均值来近似求解目标函数的梯度。

发现如果轨迹τ的初始状态是s0并且终止状态是s的话,轨迹概率公式Pθ(τ)跟平稳分布的dπ(s)是等效的,当然前提是该条轨迹必须“无限长”,即t→∞。但是平稳分布与轨迹概率公式相比,它的好处就是只涉及一个定量即初始状态s0和一个变量s。对于每个状态s,我们用Vπ(s)表示策略π下对应的价值。读者们现在可以往前回顾,为什么笔者说策略梯度算法跟基于价值函数的算法都是在计算累积状态的价值期望了,此时策略梯度算法目标函数就可以表示为式:

对于连续动作空间,通常策略对应的动作可以从高斯分布N(ϕ(s)Tθ,σ2),对应的梯度也可求得:

  • 12
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值