Reinforcement Learning an introduction (2)

weixin_47560863

已于 2023-10-08 22:03:02 修改

阅读量390

点赞数 1

分类专栏：笔记文章标签：机器学习

于 2022-03-02 15:01:22 首次发布

本文链接：https://blog.csdn.net/weixin_47560863/article/details/123230595

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

函数逼近

目标函数

定义: 目标函数

$\bar{VE}(w) = \sum_s \mu(s)[v_\pi(s) - \hat v(s,w)]^2 \\ \mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}$

其中 $\eta(s)$ 定义为状态 $s$ 出现的概率、最小化损失函数 $w^* = argmin_w \bar{VE}(w)$

性质:
- 函数逼近需要可以¹适应on-line学习、²适应变化的目标函数
- 举例: SGD可以、批量SGD不满足第一条、用直接法求解td fix点不满足第二条

SGD

更新公式

$w_{t+1} = w_t+ \frac{1}{2}\alpha\nabla_{w_t}[v_\pi(s)-\hat v_\pi(s,w_t)]^2 \\ = w_t + \alpha[v_\pi(s)-\hat v_\pi(s,w)]\nabla_{w_t}\hat v_\pi(s,w_t) \\ \approx w_t + \alpha[U_t-\hat v_\pi(s,w)]\nabla_{w_t}\hat v_\pi(s,w_t)$

收敛性: 如果 $U_t$ 是 $v_\pi(s)$ 的无偏估计、且 $\alpha$ 递减、且采样数据服从分布 $\mu$ ，则根据SGD可知 $w$ 能够收敛到 $w^*$
semi-gradient methods
- 引入原因: 用到自举的方法都将引入偏差: 包含初始化的偏差以及函数逼近的泛化误差、因此不能用SGD
- 修正: 不对目标函数求导，只对估计函数求导，以下给出 $T D (0)$ 的更新公式
$w_{t+1} = w_t + \alpha[R+\gamma \hat v_\pi(s',w)-\hat v_\pi(s,w)]\nabla_{w_t}\hat v_\pi(s,w_t)$
- episodic semi-gradient one-step Sarsa (很容易推广到n步)
$w_{t+1} = w_t + \alpha[R+\gamma \hat q_\pi(s',a',w_t)-\hat q_\pi(s,a,w_t)]\nabla_{w_t}\hat q_\pi(s,a,w_t)$
- 伪代码

线性函数

定义

$\hat v(s,w) = w^Tx(s), \nabla\hat v(s,w) = x(s)$

简单推一下
$(\nabla f)^T (dx) = tr(\nabla f dx) \\ d(\hat v) = d(w^Tx) = tr(dw^T x) = tr(x^T dw) \Rightarrow \nabla v = x$

参考网站: https://zhuanlan.zhihu.com/p/24709748

semi-gradient methods
- 收敛性: 如果迭代公式如下( $T D (0)$ )、且 $\alpha$ 递减、且采样数据服从分布 $\mu$ ，则 $w$ 能够收敛到 $w_{TD}$
- 迭代公式: $w_{t+1} = w_t + \alpha[R_{t+1}+\gamma w_t^Tx_{t+1}-w^T_tx_t]x_t$
- 以下给出证明:
  
  首先证明 $w_{TD} = A^{-1}b$ 是迭代方程的解
$w_{t+1} = w_t + \alpha[R_{t+1}+\gamma w_t^Tx_{t+1}-w^T_tx_t]x_t \\ = w_t + \alpha[R_{t+1}x_t-x_t(x_t-\gamma x_{t+1})^Tw_t] \\ = w_t + \alpha(b-Aw_t) \\ w^* = w^* + \alpha(b-Aw^*) \Rightarrow w^*=w_{TD} = A^{-1}b$

这里的目的是把 $w$ 移到后面去，又 $w^T x$ 是常数可以随便挪顺序

接着证明当 $A$ 为正定矩阵时迭代公式能够收敛到 $w_{TD}$
$w_{t+1} = (I-\alpha A)w_t + \alpha b \\ \because\delta_{w+1} = (I-\alpha A)\delta_{w}\therefore|\lambda_{max}(I-\alpha A)|\lt 1\Rightarrow\lim_{t\rightarrow\infty}\delta_{w_t}= 0 \\ (I-\alpha A)y= \lambda y\Rightarrow y^T(I-\alpha A)y= y^Ty-\alpha y^TAy = \lambda y^Ty \\ \Rightarrow 1-\lambda = \alpha\frac{y^TAy}{y^Ty}\gt 0\Rightarrow\lambda\lt 1$

用类似Gauss–Seidel method思想证明，但这样好像没法说明 $\lambda\gt -1$ ，另外是否能找到收敛更快的迭代公式呢?

最后证明 $A$ 是正定矩阵

书里写的比较详细
误差: 使用上述方法将能够收敛到TD fixed point ( $w_{TD}$ )与MC+SGD的解 $w^*$ 不相同，且 $T D$ 的误差较高，但TD因为目标函数的方差较小，因此收敛更快

$\bar{VE}(w_{TD}) \leq \frac{1}{1-\gamma}\bar{VE(W^*)}$

linear semi-gradient DP同样能够收敛到TD fixed point、semi-gradient Sarsa(0)有近似的结果
伪代码

Least-Squares TD: 上面使用迭代法求解线性方程，也可以使用直接法求解，收敛的更快但计算量大 $O(kn)\rightarrow O(n^2)$

average reward

$r(\pi)$
- 定义
  $r(\pi) =\sum_s\mu(s)\sum_a\pi(a|s)\sum_{s,a}p(s',r|s,a)r \tag{3}\\$
- 推导

$r(\pi) = \lim_{h\rightarrow\infty}\frac{1}{h}\sum_{t=1}^h E_\pi[R_t|S_{0:t-1},A_{0:t-1}] \\ = \lim_{t\rightarrow\infty} E_\pi[R_t|S_{0:t-1},A_{0:t-1}] \\ = \sum_s\mu(s)\sum_a\pi(a|s)\sum_{s,a}p(s',r|s,a)r$

$\mu(s)$
- 定义
$\mu(s) = \lim_{t\rightarrow\infty} Pr_\pi\{S_t|A_{0:t-1}\}$
- 性质
  $\mu(s') = \sum_s\mu(s)\sum_a\pi(a|s)p(s',r|s,a) \\$
- 直观理解: 代表在若从状态 $S_0$ 开始、采取策略 $\pi$ 行动，停留在状态 $s$ 的概率
- Ergodicity，若MDP满足Ergodicity特性，则 $\mu(s)$ 与 $s_0$ 无关，只与 $\pi$ 有关。Ergodicity $\Rightarrow$ 式(3)成立
differential return
- 定义
  $G_t = (R_{t+1}-r(\pi)) + (R_{t+2}-r(\pi)) + ...$
- TD_error变为
  $\delta_t = (R_{t+1} - \bar R) + \hat v(S_{t+1},w_t) - \hat v(S_t, w_t)$
不用折扣因子原因

$J(\pi) = r(\pi) + \gamma J(\pi) = \frac{r(\pi)}{1-\gamma}$

$J(\pi)$ 是从任意点出发的的平均收益(带折扣因子 $\gamma$ )、 $r(\pi)$ 是从任意点出发的平均收益 $(\gamma=1)$ 、第一个等号成立是因为 $S_0,S_1$ 的对称性、第二个等号成立是因为等比数列、由此可知 $J$ 与 $r$ 只差了个常数倍，加不加 $\gamma$ 一样

当使用函数逼近后无法满足策略更新后价值函数的单调递增性，因此前面提到的所有算法都是不能使用的(无法保证收敛)，因此提出策略梯度法

其他细节

Memory based: 只记录一部份价值函数(不做参数近似)、没看过的状态就用相邻的近似(如:取平均)
Kernel-based: Memory based的进化，每个没看过的状态都是所有记录状态的函数
interest $I$ 、emphasis $M$ : 在 $\mu$ 的基础上改变分布 (改变分布会不会影响收敛性?)

策略梯度

Policy Gradient Theorem

$\nabla_\theta J(\theta) = E_\pi[q_\pi(s,a)\nabla\ln \pi_\theta(a|s)]$

首先证明 $\nabla V_{\pi}(s)= \sum_a[\nabla\pi(a|s)q_{\pi}(s,a) + \pi(a|s)\sum_{s'}P(s'|s,a)\nabla V_\pi(s')]$

$J(\theta) = v_{\pi_\theta}(s),\space \nabla J(\theta) = \nabla_\theta v_{\pi}(s) = \nabla_\theta [\sum_a\pi(a|s)q_{\pi}(s,a)] \\ = \sum_a[\nabla\pi(a|s_0)q_{\pi}(s,a) + \pi(a|s)\nabla q_{\pi}(s,a)] \\ = \sum_a[\nabla\pi(a|s_0)q_{\pi}(s,a) + \pi(a|s)\nabla \sum_{s',r}P(s',r|s,a)(r+V_\pi(s'))] \\ = \sum_a[\nabla\pi(a|s)q_{\pi}(s,a) + \pi(a|s)\sum_{s'}P(s'|s,a)\nabla V_\pi(s')] \\$

定义 $\rho_\pi(s\rightarrow x, k)$ 为从状态 $s$ 开始采用策略 $\pi$ 行动在 $k$ 步后到达 $x$ 的概率
接下来证明 $\nabla V_{\pi}(s) = \sum_x\sum_k \rho_\pi(s\rightarrow x, k)\phi(x)$

$\nabla V_{\pi}(s) = \phi(s) + \sum_a\pi(a|s)\sum_{s'}P(s'|s,a)\nabla V_\pi(s') \\ = \phi(s) + \sum_{s'}\sum_a\pi(a|s)P(s'|s,a)\nabla V_\pi(s') \\ = \phi(s) + \sum_{s'}\rho_\pi(s\rightarrow s', 1)\nabla V_\pi(s') \\ = \phi(s) + \sum_{s'}\rho_\pi(s\rightarrow s', 1)[\phi(s') + \sum_{s''}\rho_\pi(s'\rightarrow s'', 1)\nabla V_\pi(s'')] \\ = \phi(s) + \sum_{s'}\rho_\pi(s\rightarrow s', 1)\phi(s') + \sum_{s''}\rho_\pi(s\rightarrow s'', 2)\nabla V_\pi(s'') \\ = \sum_x\sum_k \rho_\pi(s_0\rightarrow x, k)\phi(x)$

最后证明 $\nabla V_{\pi}(s) = E_\pi[q_\pi(s,a)\ln \pi_\theta(a|s)]$

$\nabla V_{\pi}(s) = \sum_x\sum_k \rho_\pi(s_0\rightarrow x, k)\phi(x) \\ = \sum_x \eta(x)\phi(x) = \sum_s\eta(s)\sum_s\frac{\eta(s)}{\sum_s\eta(s)}\phi(s) \\ \propto \sum_s\frac{\eta(s)}{\sum_s\eta(s)}\phi(s) = \sum_sd_\pi(s)\sum_a\nabla\pi(a|s)q_{\pi}(s,a) \\ = \sum_sd_\pi(s)\sum_a\pi(a|s)q_{\pi}(s,a)\frac{\nabla\pi(a|s)}{\pi(a|s)} \\ = E_{s\sim d, a\sim\pi}[q_\pi(s,a)\nabla\ln \pi_\theta(a|s)] = E_{s\sim d, a\sim\pi}[G_t\nabla\ln \pi_\theta(a|s)]$

倒数第三个等号，把 $\pi$ 提出来是因为要对s,a同时取期望，才能用采样的方式更新。最后一个等号是因为 $E[G_t|s,a]=q(s,a)$

直观理解: 梯度代表朝这方向增加 $\theta$ 能够增加选取此动作的概率，前面乘 $G$ 就代表有利时提升选取动作概率、反之降低。再看一下监督学习时logistic回归的目标函数 $-y\log\pi$ ，感觉非常像多了个常数倍系数的分类问题

PG优势

可以逼近确定性策略也可以逼近随机策略 (如使用softmax)
策略函数相较于价值函数可能更好参数化学习
更容易引入先验知识 (?)
更新时更平滑 ( $\epsilon$ -greedy是离散的更新)、有更好的收敛性

Baseline

$\nabla_\theta J(\theta) = E_\pi[(q_\pi(s,a)-b(s))\nabla\ln\pi_\theta(a|s)]$

证明: 引入Baseline期望不变 (要求b不能是动作a的函数)

$\nabla_\theta J(\theta) = \sum_sd_\pi(s)\sum_a\nabla\pi(a|s)(q_{\pi}(s,a)-b(s)) = \sum_sd_\pi(s)\sum_a\nabla\pi(a|s)q_{\pi}(s,a) \\ 其中\sum_sd_\pi(s)\sum_a\nabla\pi(a|s)b(s) = \sum_sd_\pi(s)b(s)\nabla\sum_a\pi(a|s) = \sum_sd_\pi(s)b(s)\nabla1 = 0$

性质: 引入Baseline将改变方差

$Var[\sum_\tau(G_{t:T-1}-b(s))\nabla\ln\pi_\theta(a|s)] \\ = \sum_\tau Var[(G_{t:T-1}-b(s))\nabla\ln\pi_\theta(a|s)] \\ = \sum_\tau E_\tau[([\nabla\ln\pi_\theta(a|s)][G_{t:T-1}-b(s)])^2] \\ = \sum_\tau E_\tau[(\nabla\ln\pi_\theta(a|s))^2E_\tau[(G_{t:T-1}-b(s))^2] \\$

第一个等号成立要求数据之间独立, 因为 $D (X + Y) = D (X) + D (Y) + C o v (X, Y)$ ，因此数据不独立时上面的估计不准确

最终我们只要选取 $b(s)=E(G_{t:T-1})$ 就可以最小化方差 (选 $b = v (s)$ 时方差必定减小)

连续动作空间的参数化

假设 $\pi$ 服从高斯分布，参数化后表达式如下，这样就可以使用链式法则反向传播

$\pi(a|s,\theta) = \frac{1}{\sigma_{s,\theta}\sqrt{2\pi}}\exp(-\frac{(a-\mu_{s,\theta})^2}{2\sigma_{s,\theta}^2})$

weixin_47560863

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning an introduction (2)

函数逼近目标函数定义: 目标函数VEˉ(w)=∑sμ(s)[vπ(s)−v^(s,w)]2μ(s)=η(s)∑s′η(s′)\bar{VE}(w) = \sum_s \mu(s)[v_\pi(s) - \hat v(s,w)]^2 \\\mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}VEˉ(w)=s∑μ(s)[vπ(s)−v^(s,w)]2μ(s)=∑s′η(s′)η(s)其中η(s)\eta(s)η(s)定义为状态sss出现的概率、最小化损失
复制链接

扫一扫