【强化学习】CH5 无模型控制

亲爱的玛莎拉蒂

已于 2022-09-30 16:42:31 修改

阅读量153

点赞数

分类专栏：强化学习文章标签： c语言人工智能算法

于 2022-09-25 22:26:00 首次发布

本文链接：https://blog.csdn.net/yuyueyuer/article/details/127044448

版权

强化学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

CH5 无模型控制（Model-free Control)

文章目录

CH5 无模型控制（Model-free Control)

5.1 简介

无模型控制：在未知MDP中通过调整策略优化值函数

可解决的问题：MDP模型未知，尽可以采样得到经验；

MDP模型已知，但是太大了只能进行采样。

On and Off-Policy Learning

On-Policy learning: 从执行策略 $\pi$ 所得的采样序列去优化学习策略 $\pi$ (边学习边改进自身)
Off-Policy learning:从执行策略 $\mu$ 所得的采样序列去优化学习策略 $\pi$ （观察别人以改进自身）

5.2 On-Policy 蒙特卡洛控制

5.2.1 广义策略迭代（Generalised Policy Iteration)

评估策略 $\pi$ 的值函数，依据此值函数进一步改进策略 $\pi$ ,再进行评估，直至收敛至最佳

在这里插入图片描述

5.2.2 探索

1️⃣贪婪策略探索

基于动作价值函数的贪婪策略改进，选择动作价值函数最大的动作执行,以概率1执行。
$\pi'(s)=argmax_{a\in A}Q(s,a)$
存在的问题：

从初始出现较优者时，策略会一直选择较优者以致于较优者越来越优，有可能错过潜在的更优选择。
改进： $\epsilon-Greedy\ Exploration$

2️⃣ $\epsilon-Greedy\ Exploration$

基于动作价值函数的贪婪策略改进,以概率 $1-\epsilon$ 执行动作价值函数最大的动作，**以概率 $\epsilon$ **选择其他动作。（在策略中加入 $\epsilon$ 的概率跳出局部最优）

在 $m$ 个动作中，执行动作a的概率是
$\pi(a|s)=\left\{ \begin{aligned} \epsilon/m+1-\epsilon \ if\ a*=argmax_{a\in A}Q(s,a) \\ \epsilon/m \ otherwise \end{aligned} \right.$
在这里插入图片描述

为加快收敛速度，在评估时使用估值，在未完全评估时即进行策略改进。

5.2.3 GLIE

GLIE(Greedy in the limit with infinite exploration):在无限次探索中达到贪婪极限

性质：

所有状态-动作对都被无限次探索

$\mathop{lim} \limits_{k->\infty}N_k(s,a)=\infty$

该策略收敛于普通贪婪策略，即最后以概率1取状态动作值函数最大的动作

$\mathop{lim} \limits_{k->\infty}{\pi}_k(a|s)=1(a=\mathop{argmax} \limits_{a'\in A}Q(s,a'))$

注：只有当 $\epsilon_k=\frac{1}{k}$ 时， $\epsilon-Greedy\ Exploration$ 才是 $G L I E$

GLIE蒙特卡洛控制：

第使用策略 $\pi$ 得到的k个采样序列 ${S_1,A_1,R_2,...,S_T}$

对于此序列的每个状态动作对 $S_t，A_t)$ :
$N(S_t,A_t)<-N(S_t,A_t)+1\\ Q(S_t,A_t)<-Q(S_t,A_t)+\frac{1}{N(S_t,A_t)}(G_t-Q(S_t,A_t))\\ "增量更新"$
基于状态动作值函数改进策略：
$\epsilon \leftarrow 1/k\\ \pi\leftarrow\epsilon-greedy(Q)$
注:GLIE蒙特卡洛控制的值函数收敛于最优状态动作值函数

5.3 On-Policy 差分学习

5.3.1 $S a rs a (0)$

状态动作值函数的计算：使用下一状态与下一状态会采取的动作的状态动作值函数（ $G_t$ 的近似）进行更新（均使用策略 $\pi$ 学习）
$Q(S,A)<-Q(S,A)+\alpha(R+\gamma Q(S',A')-Q(S_t,A_t))$

策略（走哪一步）的优化方式： $\epsilon-greedy(Q)$

迭代过程：

在这里插入图片描述

注：Sarsa会收敛到最优动作状态值函数的条件：

策略序列为GLIE
Robbins-Monro 序列的步进尺寸 $\alpha_t$ :

$\sum_{t=1}^{\infty}\alpha_t=\infty\\ \sum_{t=1}^{\infty}\alpha_t^2=\infty$

可以通过设计 $\alpha_t$ 满足上述性质，依次使得动作状态值函数收敛到最优。

5.3.2 $Sarsa(\lambda)$

n-Step Sarsa:

状态动作值函数的计算：使用下n个状态与下n个状态会采取的动作的状态动作值函数（ $G_t$ 的近似）进行更新（均使用策略 $\pi$ 学习）
$q_t^{(n)}=R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1}R_{t+n}+\gamma ^nQ(S_{t+n})\\ Q(S_t,A_t)<-Q(S_t,A_t)+\alpha(q_t^{(n)}-Q(S_t,A_t))$
策略（走哪一步）的优化方式： $\epsilon-greedy(Q)$

1️⃣前向 $Sarsa(\lambda)$

使用权重 $(1-\lambda)\lambda^{n-1}$ 组合选择 $q_t^{(n)}$ 得到 $q^{\lambda}$

状态动作值函数的计算：
$q_t^{\lambda}=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}q_t^{(n)}\\ Q(S_t,A_t)<-Q(S_t,A_t)+\alpha(q_t^{(\lambda)}-Q(S_t,A_t))$
$\lambda=1$ ：收敛速度慢，减小 $\lambda$ 会缩小收敛速度

在这里插入图片描述

2️⃣后向 $Sarsa(\lambda)$

$eligibility\ trace$
$E_0(s,a)=0\\ E_t(s,a)=\gamma\lambda E_{t-1}(s,a)+1(S_t=s,A_t=a)$
$Q (s, a)$ 在每个状态s和动作a更新
$TD-error:\delta_t=R_{t+1}+\gamma Q(S_{t+1},A_{t+1}-Q(S_t,A_t))\\ Q(s,a)\leftarrow Q(s,a)+\alpha\delta_tE_t(s,a)$
在这里插入图片描述

5.4 Off-Policy学习

通过行为策略behavior policy $\mu(a|s)$ 优化target policy $\pi(a|s)$

可通过一个策略学到多个策略

5.4.1 Importance Sampling

前述：如何估计不同的分布的期望
$E_{X-P}[f(x)]=\sum P(X)f(x)\\ \sum Q(X)\frac{P(X)}{Q(X)}f(X)\\ =E_{X-Q}[\frac{P(X)}{Q(X)}f(X)]$
1️⃣Importance Sampling for Off-Policy Monte-Carlo

使用 $\mu$ 的回报估计 $\pi$

基于策略间的相似性求取权重回报 $G_t$ ,需要多次采样
$G_t^{\pi / \mu}=\frac{\pi(A_t|S_t)\pi(A_{t+1}|S_{t+1})...\pi(A_{T}|S_{T})}{\mu(A_t|S_t)\mu(A_{t+1}|S_{t+1})...\mu(A_{T}|S_{T})}G_t\\ \pi与\mu越接近，G_t^{\pi / \mu}越接近G_t$
值函数的更新：
$V(S_t)\leftarrow V(S_t)+\alpha(G_t^{\pi / \mu}-V(S_t))$
Importance Sampling mc 具有较大方差。