【强化学习】周博磊第6章优化策略的进阶-CSDN博客

本文链接：https://blog.csdn.net/wsy_Monkey/article/details/133659830

周博磊第6章优化策略的进阶

回顾

Value-based RL vs Policy-based RL

基于价值的强化学习是一种隐事的确定性策略，最大化Q函数得到
基于策略的强化学习是随机性策略，由策略函数所决定

AC 减少方差的方式

$A^{\pi} = Q^{\pi}(s, a) - V^{\pi}$

梯度：
$\nabla J(\theta) = \mathbb{E}_{\pi_{\theta}}[\nabla_{\theta} \log\pi_{\theta}(s, a) A^{\pi_{\theta}}(s, a) ]$

不同时间维度上的Critic

MC：
$\nabla \kappa = \alpha (G_{t} - V_{\kappa}(s)) \psi(s)$

TD(0)
$\nabla \kappa = \alpha (r + \gamma V_{\psi}(s^{'}) - V_{\kappa}(s)) \psi(s)$

k-step
$\nabla \kappa = \alpha (\sum_{i=0}^{k}\gamma^{i}r_{t+i} + \gamma^{k}V_{\kappa}(s_{t+k}) - V_{\kappa}(s)) \psi(s)$

不同时间维度上的Actors

MC：
$\nabla \kappa = \alpha (G_{t} - V_{\kappa}(s)) \nabla_{\theta}\log\pi_{\theta}(s_{t}, a_{t})$

TD(0)
$\nabla \kappa = \alpha (r + \gamma V_{\psi}(s^{'}) - V_{\kappa}(s)) \nabla_{\theta}\log\pi_{\theta}(s_{t}, a_{t})$

k-step
$\nabla \kappa = \alpha (\sum_{i=0}^{k}\gamma^{i}r_{t+i} + \gamma^{k}V_{\kappa}(s_{t+k}) - V_{\kappa}(s)) \nabla_{\theta}\log\pi_{\theta}(s_{t}, a_{t})$

State of Art

Policy-Based
TRPO -> ACKER -> PPO
Value-Based
DDPG->TD3->SAC

Policy Gradient 缺点

数据采样效率较低
不合适的步长会导致训练崩掉

step too far -> bad policy -> bad data collection

Natural Policy Gradient

Policy Gradient:
$d^{*} = \nabla_{\theta}J(\theta) = \lim_{\epsilon \Rightarrow 0} \frac{1}{\epsilon} \max J(\theta + d), st. ||d|| <= \epsilon$

缺点
对于policy 的函数形式过于敏感，不同的softmax，gaussian都会导致不同的优化结果

在分布空间最大的提升
$d^{*} = \argmax J(\theta + d), s.t. KL(\pi_{\theta} || \pi_{\pi + d}) = c$
固定KL在一个常数c内，可以保证我们的分布以常数的速度进行优化。不用考虑模型函数的参数构造方式。

KL 散度是衡量两个分布的距离
$\sum_{i=1}^{n}p_{i} \log \frac{p_{i}}{q_{i}}$
$\mathbb{E}(\log p_{i} - \log q_{i})$
虽然KL 散度是非对称的，但是d趋近于0时。KL散度可以认为是对称的。所以在局部内，我们可以认为KL散度是对称矩阵。
我们可以证明KL 散度的二阶泰勒展开式：
$KL(\pi_{\theta} || \pi_{\theta + d}) \approx \frac{1}{2} d^{T} F d$
F 是Fisher Information Matrix，是KL散度的二阶导数 $\mathbb{E_{\pi_{\theta}}} [\nabla \log \pi_{\theta} \nabla \log \pi_{\theta} ^{T}]$

流程：
$d^{*} = \argmax J(\theta + d), s.t. KL(\pi_{\theta} || \pi_{\pi + d}) = c$

上述可以写成拉格朗日形式， $J(\theta + d)$ 写成一阶泰勒展开，受限的KL散度可以写成二阶泰勒展开
$d^{*} = \argmax_{d} J(\theta + d) - \lambda (KL(\pi_{\pi} || \pi_{\theta + d}) - c) \\ \approx \argmax_{d} J(\theta) + \nabla_{\theta}J(\theta)^{T}d - \frac{1}{2} \lambda d^{T}Fd + \lambda c$
令d = 0, natural policy 梯度: $\frac{1}{\lambda} F^{-1} \nabla_{\theta}J(\theta)$

Natural Policy Graident 是二阶导优化，与模型参数化形式无关。
$\theta_{t+1} = \theta_{t} + \alpha F^{-1} \nabla_{\theta}J(\theta)$
$\mathbb{E_{\pi_{\theta}}} [\nabla \log \pi_{\theta} \nabla \log \pi_{\theta} ^{T}]$ ，是fisher information matrix 也是KL散度的二阶导数
Natural Policy 无关于模型的方式
详细推导 https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/

重要性采样

x是基于p分布采样得到的数据，我们可以通过q分布采样得到数据，使用p q间的概率比值来重新娇艳结果
$\mathbb{E}_{x \in p} [f(x)] = \int q(x)\frac{p(x)}{q(x)} f(x)dx = \mathbb{E}_{x \in q} [\frac{p(x)}{q(x)}f(x)]$

NPG算法流程：

请添加图片描述

TRPO算法流程：

请添加图片描述

详细的算法说明：

ACKTR(Actor-Critic using Kronecker-Factored Trust Region)

使用Kronecker-factored approximation(K-FAC)减少计算Fisher Information Matrix 逆的复杂度
ACKTR

PPO(Proximal Policy Optimization) 近端策略优化

算法流程：
带有KL散度惩罚的流程：
请添加图片描述

with Clipping
请添加图片描述

tips:
对atari 不熟的话，可以试玩
Atari 试玩

DDPG

Q-target: $s^{'}, d) = r + \gamma (1 - d) Q(s^{'}, \mu_{target}(s^{'}))$
Q-function: $\min \mathbb{E}_{s, r, s^{'}, d \in D} [Q_{\phi}(s, a) - y(r, s^{'}, d)]$
policy: $\max_{\theta} \mathbb{E}_{s \in D}[Q_{\phi}(s, \mu_{\theta}(s))]$
代码 DDPG

TD3（Twin Delayed DDPG）

DDPG缺点
DDPG过高的估计了Q值，导致策略不够稳定
请添加图片描述

TD3 是在DDPG基础上，添加了一些trick

Clipped Double-Q Learning
TD3 使用了两个Q函数，用较小的Q值来作为贝尔曼误差的target
Delayed
策略网络的更新速度比q函数更新更慢
Target Policy Smoothing
TD3在目标函动作上添加了噪声、
TD3 代码

Soft Actor-Critic (SAC)

SAC 是一个离线的训练方法，该方法包含了Entropy regularization的方法
$\pi^{*} = \argmax \mathbb{E}_{\tau \sim \pi}[\sum _{t}\gamma^{t}(R(s_{t}, a_{t},s_{t+1}) + \alpha H(\pi(.|s_{t})))]$