强化学习(6):Actor-Critic(演员评论家)算法

本文主要讲解有关 Actor-Critic 算法的有关知识。

一、Actor Critic 算法

Actor-Critic 算法合并了以策略为基础的 Policy Gradient和以值为基础的 Q-Learning 两类强化学习算法,该算法中将前者当作 Actor,用来基于概率选择行为。将后者当作 Critic,用来评判 Actor 的行为得分,然后 Actor 又会根据 Critic 的评分修改行为的概率。这使得它既可以在有效的处理连续动作的选取,又可以进行单步更新(PG算法的回合更新降低了学习效率)。

下面分别介绍一下 Actor 网络和 Critic 网络这个两个部分。

二、Actor 网络

Actor 网络采用的是基于策略的 Policy-Gradient 算法。PG 算法的损失函数可以表示为: l o s s = − E [ log ⁡ [ π ( a ∣ s ) ] ⋅ ψ ] loss=-E[\log{[\pi(a|s)]}\cdot \psi] loss=E[log[π(as)]ψ],其中 ψ \psi ψ 是对某个轨迹的评分, 在 AC 算法中它可以有多种表示方式:

  1. 状态价值函数:V(s)
  2. 动作价值函数:Q(s,a)
  3. TD-error: r + γ ⋅ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) r+\gamma\cdot Q(s_{t+1},a_{t+1})-Q(s_t,a_t) r+γQ(st+1,at+1)Q(st,at)
  4. 优势函数:V(s,a)
  5. 总回报: ∑ r t \sum r_t rt
  6. 加入基线的总回报: ∑ r t − b \sum r_t-b rtb

在实际编写代码的时候,使用的是 TD-error 来作为评价,同时为了鼓励探索(exploration),所以损失函数中还加入了交叉熵损失。

三、Critic 网络

Critic 网络采用的是基于值函数的 Q-Learning 算法,采用的是 l o s s = ( T D _ e r r o r ) 2 loss=(TD\_{error})^2 loss=(TD_error)2 作为 Critic 网络的损失函数。

整个 Actor Critic 算法可以用下图表示:

actor-critic

四、AC 算法的缺点

AC 取决于 Critic 的价值判断, 但是 Critic 难收敛, 再加上 Actor 的更新, 就更难收敛,为了解决该问题又提出了 DDPG 算法和 A3C 算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值