baseline在A2C中的运用

将baseline运用到A2C得到Advantage Actor-Critic

  • baseline通常是指一种参考策略或者性能水平,用来衡量其他策略或算法的性能

A2C

  • Policy network(actor): π ( a ∣ s ; θ ) \pi(a|s;\mathbf{\theta}) π(as;θ)
    • 是Policy function π ( a ∣ s ) \pi(a|s) π(as)的近似
    • 控制agent
  • Value network(Critic): v ( s ; w ) v(s;\mathbf{w}) v(s;w)
    • 是state-value function V π ( s ) V_{\pi}(s) Vπ(s)的近似
    • 是state s 好坏的评价

  • action value function A 依赖于动作和状态
  • value function V只依赖于状态
  • V比A更容易训练

A与C的训练过程

Training of A2C

  • 每轮观测一个transition(st,at,rt,st+1)
  • 计算TD target: y t = r t + γ ⋅ v ( s t + 1 ; w ) y_t=r_t+\gamma\cdot v(s_{t+1};\mathbf{w}) yt=rt+γv(st+1;w)
  • 计算TD error: δ t = v ( s t ; w ) − y t \delta_t=v(s_t;\mathbf{w})-y_t δt=v(st;w)yt
  • 更新Policy network by: θ ← θ − β ⋅ δ t ⋅ ∂ ln ⁡ π ( a t ∣ s t ; θ ) ∂ θ \mathbf{\theta}\leftarrow\mathbf{\theta}-\beta\cdot\delta_t\cdot\frac{\partial\ln\pi(a_t\mid s_t;\mathbf{\theta})}{\partial\mathbf{\theta}} θθβδtθlnπ(atst;θ)
  • 更新value network: w ← w − α ⋅ δ t ⋅ ∂ v ( s t ; w ) ∂ w \mathbf{w}\leftarrow\mathbf{w}-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;\mathbf{w})}{\partial \mathbf{w}} wwαδtwv(st;w)

[ 参考 ]:https://www.bilibili.com/video/BV1f34y1P7tu?p=16&vd_source=fdaf11557adf2f6bdc6ceed86a17b97e

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值