Reinforcement Learning an introduction (1)

weixin_47560863

于 2022-03-02 14:57:11 发布

阅读量486

点赞数 1

分类专栏：笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47560863/article/details/123230563

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

基础知识

马可夫性质

数学解释:
$P(s_{t+1},r_{t+1}|s_t,a_t) = P(s_{t+1},r_{t+1}|s_0,a_0,s_1,a_1,...,s_t,a_t)$
理解: 下个状态只取决于当前状态与动作，与历史无关
当环境不满足马可夫性质时，称为POMDP (可能是因为部份观测造成)，引入RNN网络可缓解此问题

马可夫决策过程

定义了三个元素(数学形式)
- 给定s,a下的期望收益
$\sum_r r \sum_{s'} P(s',r|s,a)$
- 给定s,a下到达s’概率
  $\sum_r P(s',r|s,a)$
- 给定s,a,s’下的期望收益
  $\frac{\sum_r r P(s',r|s,a)}{P(s'|s,a)}$
理解
- 根据马可夫模型的假设，其实我们只定义了 $P (s^{'}, r ∣ s, a)$ 。但在马可夫决策过程模型中，我们利用上面三个简单的数学表达式把 $P (s^{'}, r ∣ s, a)$ 转换成多个我们关心的期望值，并且后面我们主要都是对这些期望值操作。
- 一开始误以为环境是由 $P (s^{'} ∣ s, a)$ 以及 $r (s, a, s^{'})$ 两个元素构成，但其实是更复杂的 $P (s^{'}, r ∣ s, a)$ 。

价值函数

数学定义

$v_\pi(s) = E_\pi[G_t|S_t=s] = E_\pi[\sum_{k=0}^{\infty}\gamma^kr_{t+k+1}|S_t=s] \\ q_\pi(s,a) = E_\pi[G_t|S_t=s,A=a] = E_\pi[\sum_{k=0}^{\infty}\gamma^kr_{t+k+1}|S_t=s, A_t=a]$

其中 $E[\cdot]$ 定义为 := 当智能体根据 $\pi$ 行动时、随机变量的期望值

Bellman equation

$v_\pi(s) = \sum_a \pi(a|s)\sum_{r,s'} P(s',r|s,a)[r + \gamma v_\pi(s')] \\ q_\pi(s,a) = \sum_{r,s'}P(s',r|s,a)[r+\gamma\sum_{\hat a}\pi(\hat a|s')q(s',\hat a)]$

理解
- 注意 $V$ 是带 $\pi$ 的、且 $\pi$ 会体现在期望上
- Bellman: v是从s出发所以先决策、环境再随机作用；而q则是a出发，所以是先环境作用再决策

最佳价值函数

数学定义 (最优策略 $v_{\pi*}(s)$ 、最优价值函数、最优行动价值函数)

$v_{\pi*}(s)\ge v_{\pi(s)} ,\forall s,\forall\pi \\ v*=max_\pi v_\pi(s) \\ q*=max_\pi q_\pi(s,a)$

Bellman optimality equation

$v^*(s) = \max_{a} q^*(s,a) = \max_a\sum_{s',r}P(s',r|s,a)[r+\gamma V^*(s')] \tag{1}\\ q^*(s,a) = \sum_{s',r} P(s',r|s,a)[r+\gamma \max_{a'}q^*(s',a')]$

理解
- 首先定义了什么是好的价值函数，然后说明最优价值函数满足贝尔曼最优方程的自我迭代关系，当已知 $P (s^{'}, r ∣ s, a)$ 、满足马可夫、算力足够大时， $v^*$ 可解
- 已知 $V^*$ 与 $P (s^{'}, r ∣ s, a)$ 可用一步贪婪法得到最佳策略；已知 $q *$ 也能用贪婪法得到最佳策略 (q函数维度更高但是可以不用知道环境模型就能求解)
与 $A^*$ 算法关联 (?)

近似求解

没有近似时称为tabular case
常用近似:对不常见的状态采用非最优策略、对常见状态采取最优策略。在线学习RL可以轻松达到这样效果，因为他们会更常更新那些常见状态，因此常见状态逼近的更好。

动态规划

策略评价

iterative policy evaluation
- 迭代公式 $v_{k+1}(s) = \sum_{a} \pi(a|s)\sum_{r,s'} P(s',r|s,a)[r + \gamma v_k(s')]$
- 证明 ${v_k\}$ 会收敛到 $v^*$
  - 首先证明 $v^*$ 是 $v_k$ 的不动点 (由贝尔曼最优方程可知)
  - 接着证明迭代公式收敛 (用矩阵形式)
  $V_{k+1} = R + \gamma P_{s's}V_k \\ \delta_{k+1} \leq \gamma\cdot ||P||_\infty\cdot\delta_k=\gamma\cdot\delta_k$
  
  第二行等式成立因为矩阵 $P_{s's}$ 的无穷范数为1 (每列之和皆为1)，其中 $\delta_k$ 代表第k次迭代的误差
  - 最后给出误差上界
  $|v_{k+1}-v^*| \leq \frac{\gamma}{1-\gamma}|v_k-v_{k-1}|\leq\frac{\gamma}{1-\gamma}R_{max}$

迭代公式取了期望而非采样，因此需要仿真所有后继节点，称为full_backup，后面的RL算法都是采用仿真而非真的全部走一遍

算法伪代码

策略更新

定理 (policy improvement theorem)
$q_\pi(s,\pi'(s))\ge v_\pi(s) \Rightarrow v_{\pi'}(s)\ge v_\pi(s) \tag{2}$
- 理解: 左边 $q_\pi(s,\pi'(s))$ 代表第一步用 $\pi'$ 、后面用 $\pi$ ；右边 $v_{\pi'}(s)$ 代表每一步都用 $\pi'$ 。证明方法很明显: 把左边从第一步推到第n步就可以
- 数学推导
$v_\pi(s_t) \leq q_\pi(s,\pi'(s_t)) \\ = E_{\pi'}[R_{t+1}+\gamma v_\pi(s_{t+1})] \\ \leq E_{\pi'}[R_{t+1}+\gamma q_\pi(s_{t+1},\pi'(s_{t+1}))] \\ = E_{\pi'}[R_{t+1}+\gamma E_{\pi'}[R_{t+2}+\gamma v_\pi(s_{t+2})]] \\ = E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2 v_\pi(s_{t+2})] =\space ... = v_{\pi'}(s_{t})$
policy improvement
$\pi'(s) = arg\max_a q_\pi(s,a)$
- 只要用上述贪婪法选取动作就能保证价值函数不减
$v_\pi(s)=q_\pi(s,\pi(a))\leq\max_a q_\pi(s,a) = q_\pi(s,\pi'(a))\Rightarrow v_{\pi'}(s)\ge v_\pi(s)$
- $v_\pi$ 会逐渐上升直到 $v_\pi=v_{\pi'}$ ，此时贝尔曼最优方程成立，即 $v_\pi=v_{\pi'}=v^*$
理解
- 证明了使用贪婪法更新时价值函数是递增的，且不递增时代表收敛到最优，成功证明同步策略迭代收敛性
- 得到的会是确定性策略，但当有多个最优解有相同价值时，可以采用随机策略

策略迭代

算法
理解: 交替进行策略评价( $v_\pi\rightarrow v_{\pi'}$ , 迭代到收敛) 与策略更新( $\pi\rightarrow\pi'$ )

价值迭代

算法
理解: 交替进行策略评价(只迭代一次) 与策略更新( $\pi\rightarrow\pi'$ )
讨论
- 策略迭代与价值迭代在光谱的两个极端，可以定义光谱为: 策略评价n次策略更新1次，靠近策略迭代那侧n较大；价值迭代那侧n较小。通常介于光谱中间时收敛较快
- 操作上两者在策略评价时数学形式相似，只差一个 $\max$ 号，可以把此类方法看成每进行n次扫描(更新)，将第n次从贝尔曼方程换成贝尔曼最优方程(进行贝尔曼最优方程更新等价于评价加更新)

异步DP

同步DP: 按照固定顺序扫描每个状态，让每个状态更新的次数相同
- 同步更新: 每次扫描结束后统一更新价值函数为新值
- 异步更新: 每步结束后马上更新价值函数，收敛更快
异步DP: 不按固定顺序选取状态，且采用异步更新，收敛的条件是 ${s_k\}$ 中当 $k\rightarrow\infty$ 时，需要包含所有状态无穷多次 (异步相对同步类似高斯-赛德尔相对于雅可比)
理解: 这里要表达的是顺序不影响收敛性、异步优于同步、且顺序会影响收敛速度。(即理论上计算复杂度下界不会下降但可以通过选择状态顺序加快真实收敛速度)。常见的加速方法是在线学习，用异步DP的方式去更新智能体经过的那些状态 (这些状态更值得我们关注)

GPI (Generalized policy iteration)

如上图所示
- 评价与更新是竞争关系: 两者方向不同。具体体现在: 完成评价后会让 $\pi$ 不是贪婪最优、完成 $\pi$ 更新后会让价值函数错误
- 评价与更新是合作关系: 两者并非正交，且有交点。因此只要交替进行评价与更新就会收敛到最优价值，且最优价值是不动点，代表算法必能收敛
- 上图所示是同步策略迭代，即每次都走到两条线上，但其实我们可以没必要每次都更新到收敛。可以每次只迭代一次(价值迭代)，可以每次只更新部份状态(异步迭代)，两种方法都能提升收敛速度
- 只证明同步策略迭代、同步价值迭代的收敛性，其他的方法怎么证明收敛性?

蒙特卡洛

蒙特卡洛评价

算法
- 伪代码 (first-visit MC evaluation)
- 数学证明 (first-visit)
  - 收敛性: 根据大数定律能收敛，且误差的方差与样本数 $n$ 有 $\sigma\propto\frac{1}{\sqrt{n}} $
  - 简单证一下第二部份
  $X=\frac{1}{n}(X_1+...+X_n)\Rightarrow Var(X)=\frac{1}{n^2}(Var(X_1)+...+Var(X_n))=\frac{Var(X_i)}{n}$
- 概念
  - first-visit: 只使用episode中第一次出现的状态作为有效数据
  - every-visit: 每个出现的状态都可以拿来训练、没证明收敛性(上面证明成立条件是每次采样iid、但every-visit显然不是)
exploring starts
- 解决问题: 确定性策略的探索问题
- 定义: 随机选择起点，且所有 $(s, a)$ 都有 $\gt 0$ 的概率被选为起点 (跑无限次必收敛)
- 理解: 为何DP不用讨论探索相关问题而MC就要呢? 因为DP用所有后继状态来更新当前状态，所以他其实是超强探索(把所有状态不管好坏都跑了一遍)，而MC是采样，没有探索的确定性策略就真的只会一直访问同一个状态了

蒙特卡洛更新

Monte Carlo with Exploring Starts
- 伪代码 (first-visit MCES)
- MCES (类似策略迭代)
  - 贪婪法做策略更新 (使用确定性策略)
  - 假设: 采样时满足exploring starts
  - 策略评价 $q=avg(G_t)$ (根据GPI思想只要有目标函数靠就可以)
  - 能证明收敛
- 此处必须使用 $q$ 函数:
  - 在不知道 $P (s^{'} ∣ s, a)$ 时，只学习 $v$ 函数没法使用贪婪法 $argmax_a\sum_{s'}P(s'|s,a)[r+\gamma V(s')]$ 更新策略，但使用 $q$ 函数可以 $argmax_a q(s,a)$ ，因此此处需要学 $q$ 函数
$\epsilon$ -greedy
- 伪代码 (on-policy first-visit MC control algorithm for $\epsilon$ -soft policies)
- $\epsilon$ -soft policies
  - 定义 $\pi(a|s)\geq\epsilon, \forall s\forall a$
  - 理解: 把 $\epsilon$ -soft环境理解为确定性策略+非确定性环境，仍然使用贪婪法选取动作，但 $P (s^{'}, r ∣ s, a)$ 导致每次有 $\epsilon$ 的概率会被随机传送。 $\epsilon$ -greedy 会收敛到 $\epsilon$ -soft意义下的最优策略，而非全局最优策略。可以理解为 $\epsilon$ -soft环境中的最优策略与真实环境中的最优策略不同。
- 算法: $\epsilon$ -greedy
  - 数学形式
  $\pi(a|s)= \begin{cases} \frac{\epsilon}{|A|},\space a_{random}\\ 1-\epsilon+\frac{\epsilon}{|A|},\space a_{greedy}\\ \end{cases}$
  - 证明收敛性
  $q_\pi(s,\pi'(a|s)) = \sum_a\pi'(a|s)q_\pi(s,a) \\ = \sum_a\frac{\epsilon}{|A|}q_\pi(s,a)+(1-\epsilon)\max_{a'} q_\pi(s,a') \\ =\sum_a\frac{\epsilon}{|A|}q_\pi(s,a)+(1-\epsilon)\sum_a\frac{\pi(a|s)-\frac{\epsilon}{|A|}}{1-\epsilon}\max_a q_\pi(s,a) \\ \geq\sum_a\frac{\epsilon}{|A|}q_\pi(s,a)+(1-\epsilon)\sum_a\frac{\pi(a|s)-\frac{\epsilon}{|A|}}{1-\epsilon}q_\pi(s,a) = v_\pi(s)$
  
  第三行成立是因为 $\sum_a(\cdot)=1$ 。最后额外使用式(2)，得到 $v$ 函数不减、能收敛到最优值的结论
  - 价值函数期望更新公式
  $\frac{\epsilon}{|A|}\sum_aq_\pi(a|s) + (1-\epsilon)\max_a q_\pi(a|s) \\ = \frac{\epsilon}{|A|}\sum_a\sum_{s',r}P(s',r|s,a)[r+\gamma v_\pi(s')] + (1-\epsilon)\max_a \sum_{s',r}P(s',r|s,a)[r+\gamma v_\pi(s')]$
  
  等号成立当且仅当 $\pi=\pi'$ ，最优策略是不动点
  - 理解: 上面证明的不减是期望效用不减，事实上on-policy通过采样得到的数据，因此实际更新公式与期望更新公式不同(在DP中是相同的)

重要性采样

基本概念
$E_\pi[X] = \int x\cdot\pi(x) dx = \int x\frac{\pi(x)}{\mu(x)}\mu(x) dx = E_\mu[\frac{X\cdot\pi(X)}{\mu(X)}] \\ Var(\hat\mu_q) = \frac{1}{n}\sum_i[\frac{x_i\pi(x_i)}{\mu(x_i)}-\hat\mu_q]^2$
- 要求(assumption of coverage): 能使用 $\mu$ 估计 $\pi$ 价值函数的前提是 $\pi(a|s)\ge 0\Rightarrow \mu(a|s)\ge 0$
  
  数学理解: 分母不为零、直观理解: 没看过的状态无法估计出来
- 其中 $\pi$ 是确定性策略、而 $\mu$ 是带有随机性的(能探索)、且要求 $\pi/\mu$ 不能太大否则方差爆炸
importance-sampling ratio

$\rho_t^T = \Pi_{k=t}^{T-1}\frac{\pi(a|s)P(s'|s,a)}{\mu(a|s)P(s'|s,a)} = \Pi_{k=t}^{T-1}\frac{\pi(a|s)}{\mu(a|s)}$

理解: 实际出现该轨迹的概率/采样出现该轨迹的概率
两种MC估计
- ordinary importance sampling
$\frac{\sum \rho_i G_i}{N}$
- weighted importance sampling
$\frac{\sum \rho_i G_i}{\sum \rho}$
- 优劣: IS是无偏估计但方差随 $\rho$ 增大而增大(无上界)、WIS有偏但方差有上界(更常被使用)，下面证明WIS方差有上界
$|v|=|\sum_i w_iG_i|\leq C|\sum_i w_i|= C \\ 其中w_i = \frac{\rho_i}{\sum_i\rho_i}\leq 1, C=\max_i |G_i|\\ |v|\leq C\Rightarrow Var|v|\leq \frac{C^2}{4}$

off-policy MC control

伪代码 (off-policy every-visit MC control algorithm)
理解
- $Q$ 函数使用递增更新， $Q\leftarrow Q+\frac{W}{C}[G-Q]$
- 需要注意。一、t=T-1,T-2… 是从后往前更新的；二、W $\leftarrow$ W/ $\mu$ 是不包含 $\pi$ 的；三、for any soft policy $\mu$ 即此处没有规定 $\mu$ 如何选；四、 $\pi$ 是确定性策略 $\mu$ 是soft策略
- 当时刻 $t$ 选择探索动作后，因为 $\pi_t=0$ ，因此 $W$ 归零， $t$ 时刻以前的所有动作都没用了，所以如果太长探索会降低收敛速度(数据利用率)
- 此处 $W$ 更新公式不包含 $\pi$ 应该是漏写了，有两种改法。一、把 $\pi$ 加回去即 $w\leftarrow W\frac{\pi}{\mu}$ ；二、在此行前面加一行if $A_t\neq \pi(S_t) $ then ExitForLoop。此处用1代替 $\pi$ 是因为 $\pi$ 是确定性策略通常都是1。
- 可以理解为Exploring Starts的一种变形，这样改的好处是，每次起点都是 $S_0$ 。如果可以从指定的 $S_i$ 出发我感觉其实用on-policy的Exploring Starts方法会比较高效

折扣因子与重要性采样

数学推导

$\bar G^h = R_0 + R_1 + ... + R_h \\ G = R_0 + R_1 + ... + R_T = (1-\gamma)\bar G^0 + \gamma(1-\gamma)\bar G^1 + \gamma^2(1-\gamma)\bar G^2 +...+\gamma^{T}\bar G^T \\ G = \gamma^T\bar G^T+\sum_{h=0}^{T-1}\gamma^h(1-\gamma)\bar G^h \\ v(s) = \frac{\sum[\gamma^T\rho^T\bar G^T+\sum_{h=0}^{T-1}\gamma^h(1-\gamma)\rho^h\bar G^h]}{\sum[\gamma^T\rho^T+\sum_{h=0}^{T-1}\gamma^h(1-\gamma)\rho^h]}$

理解
- 前面讨论的重要性采样都是在 $\gamma=1$ 时，此节讨论 $\gamma\leq 1$ 时的处理方法
- 把 $\gamma$ 从折扣因子想成随机终止概率。即每步会有 $\gamma$ 的概率提前结束这个episode，因此 $G=\bar G^1$ 的概率是 $\gamma(1-\gamma)$ ，即第一步判定失败且第二步判定成功
- 怎么用?

时序差分

算法

TD更新法

$V(S_t) \leftarrow V(S_t) + \alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$

SARSA (on-polcy) (策略迭代)

$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)]$

Q-learning (off-policy) (价值迭代)

$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha[R_{t+1}+\gamma\max_a Q(S_{t+1},a)-Q(S_t,A_t)]$

收敛性: 在DP那章已经讨论过，与 $q,\pi$ 的选取有关
与MC相似: 都使用采样；与DP相似: 都是用自举、更新公式基本相同

TD优势

每步骤都能更新更适合在线学习
适用于没有episode的场景
在batch-updating中使用TD更新结果等价于MLE(最大似然估计)MDP模型 (这是一篇论文)
在batch-updating中使用 $\alpha-MC$ 更新结果与TD结果不相等，但能使得均方误差最小化

After State

当只知道部份 $P (s^{'}, r ∣ s, a)$ 时，把此概率分解为两部份: 已知部份与未知部份，已知部份作用后到达的状态称为After State
减少状态数

资格迹

n-step TD

数学定义:

$G_t^{t+n} = R_{t+1} + \gamma R_{t+2} + ...+\gamma^{n-1}R_{t+n} + \gamma^n V(S_{t+n}) \\ \Delta_t = \alpha[G_t^{t+n} - V(S_t)]$

收敛性 (误差递减 -> 收敛)

$\max_s|E_\pi[G_t^{t+n}]-v_\pi(s)| \leq \gamma^n \max_s|v(s)-v_\pi(s)|$

以下简单证明
$\max_s|E_\pi[G_t^{t+n}]-v_\pi(s)| \\ = \max_s|E_\pi[ \gamma R_{t+2} + ...+\gamma^{n-1}R_{t+n} + \gamma^n V(S_{t+n})] - E_\pi[ \gamma R_{t+2} + ...+\gamma^{n-1}R_{t+n} + \gamma^n \sum_k \gamma^kR_{t+n+k}]| \\ \leq \gamma^n \max_s|E_\pi[V(S_{t+n})-\sum_k \gamma^kR_{t+n+k}]| = \gamma^n \max_s|v(s)-v_\pi(s)|$

最后一个等号可以理解为变量替换: 把 $S_{t+n}$ 换成 $S_t$

理解
- 证明了n-step TD误差上界会以 $\gamma^n$ 的速度减小，因此无论 $n$ 取值多少的TD更新式都可以用 (因此后面用 $TD(\lambda)$ 把任意 $n$ 取平均仍然可以收敛)
- 需要假设最终状态是一个不断回到自己的状态且奖励为零 (这样后面 $TD(\lambda)$ 才是无穷等比数列，否则遇到终点会提前终止而多一项)

前向传播

$\lambda-return$

$L_t = (1-\lambda)\sum_n^\infty\lambda^{n-1}G_t^{t+n}=G_t^\lambda \\ \Delta_t^\lambda = \alpha[L_t-V(S_t)]$

online: 马上更新 (前向传播无法online更新，因为此时还不知道后面的值)

offline: 每个episode结束时更新

后向传播

资格迹

$E_t(s) = \begin{cases} \gamma\lambda E_{t-1}(s), s\neq s_t \\ \gamma\lambda E_{t-1}(s) + 1, s=s_t\\ \end{cases}$

变形

$E_t(s) = \begin{cases} 1 ,(replacing\_trace) \\ \gamma\lambda E_{t-1}(s) + 1 ,(accumulating\_trace) \\ (1-\alpha)\gamma\lambda E_{t-1}(s) + 1 ,(dutch\_trace) \\ \end{cases} , s=s_t$

$TD(\lambda)$

$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(s_t) \\ \Delta_t^{TD(\lambda)} = \alpha\delta_tE(s) \\$

伪代码

优缺点
- 需要额外内存记录资格迹(|S|)、每次需要更新需要同时对所有状态更新(但其实多数状态资格迹为零可以不管)、使用函数近似时大约增加两倍的时间&空间
- 可以在 $M C$ 与 $T D$ 中间任意切换(即 $T D (1) 到 T D (0)$ )，且 $T D (1)$ 可以适用在没有episode的情景( $M C$ 不行)

前后向等价

教科书证明

$\Delta^\lambda = G_t^\lambda - V_t \\ = - V_t + (1-\lambda)\lambda^0 (R_{t+1} +\gamma V_{t+1}) + (1-\lambda)\lambda^1 (R_{t+1} +\gamma R_{t+2} + \gamma^2 V_{t+1}) + ... \\ = - V_t + (\lambda\gamma)^0(R_{t+1} + \gamma V_{t+1} - \lambda\gamma V_{t+1}) + (\lambda\gamma)^1(R_{t+2} + \gamma V_{t+2} - \lambda\gamma V_{t+2}) + ... \\ = (\lambda\gamma)^0(R_{t+1} + \gamma V_{t+1} - V_{t}) + (\lambda\gamma)^1(R_{t+2} + \gamma V_{t+2} - V_{t+1}) + ... \\ = \delta_t + \gamma\lambda\delta_{t+1} + (\gamma\lambda)^2\delta_{t+2} = \Delta^{TD}$

第二个等式: 先处理 $R_{t+1}$ 的所有项，发现和为1， $R_{t+2}...$ 同理。再把剩下的所有 $t + n$ 的项凑在一起

第三个等式: 把 $V_t$ 代进去，然后 $-\lambda\gamma V_{t+1}$ 被移到下一项，依此类推

另一个角度证明

首先定义 $\delta_t^n$ 代表从t时刻开始的 $n - s t e p$ $T D$ 更新、以下证明$\delta_t^n = \delta_t^{1+\gamma\delta_{t+1}}1+\gamma^{2\delta_{t+2}}1+… $
$\delta_t^1 = R_{t+1} + \gamma V_{t+1} - V_t \\ \delta_t^2 = R_{t+1} + \gamma R_{t+2} + \gamma^2 V_{t+2} - V_t \\ \delta_{t+1}^1 = R_{t+2} + \gamma V_{t+2} - V_{t+1} \\ \delta_t^2 = [R_{t+1} + \gamma V_{t+1} - V_t] + [\gamma R_{t+2} + \gamma^2 V_{t+2} - \gamma V_{t+1}] = \delta_t^1 + \gamma\delta_{t+1}^1$
以下证明 $\Delta^\lambda=\Delta^{TD}$

$\Delta^\lambda = (1-\lambda)[\delta_t^1+ \lambda\delta_t^2 + \lambda^2\delta_t^3+...]\\ =(1-\lambda)[(\delta_t^1) + (\lambda\delta_t^1 + \lambda\gamma\delta_{t+1}^1) + (\lambda^2\delta_t^1 + \lambda^2\gamma\delta_{t+1}^1 + \lambda^2\gamma^2\delta_{t+2}^1)+...] \\ = \delta_t^1 + (\lambda\gamma)\delta_{t+1}^1 + (\lambda\gamma)^2\delta_{t+2}^1+... = \Delta^{TD}$

最后一个等号: 把 $\delta_t^1$ 的项全部加起来发现是等比数列且和为1、之后把 $(\lambda\gamma)^n$ 提出来后对 $\delta_{t+n}$ 有同样的处理方式

理解
- 上面证明只有在offline时成立，原因是:当online算法走到 $t + 1$ 时刻时 $\delta_{t+1}^t$ 已经改变，之前的等式不再成立。online要成立有两种可能: 第一、当学习率足够小，可以近似相等，第二、需要对算法做改进，具体参考论文 True online TD
- 后向的核心思想有二。第一、用一步的 $T D$ 误差取代 $n$ 步的 $T D$ 误差。第二、后向的更新思想。第一的好处是每次都只要计算该步的单步 $T D$ 误差，而不用每次都对所有过去经过的状态 $S$ 算 $n$ 步误差，减少重复计算。第二的好处是，前向是不可能实现online的，而后向思想可以。
其他
- $SARSA(\lambda)$ 就是 $Q\leftarrow Q + \alpha\delta E$ 、 $Q(\lambda)$ 在选择探索动作时把 $E$ 归零，其他都跟原本相同
- $\lambda$ 也可以不是定值，当该状态置信度高时，让 $\lambda=0$ 也就是在这个状态去估计后面的值

模型

model-base

distribution models = $P (s^{'}, r ∣ s, a)$

sample models = 游戏模拟器
planning: 使用distribution models给出的经验训练

learning: 使用sample models得到的真实数据训练
model-base算法: 与sample_model交互，用得到的数据估计distribution models，用distribution models生成数据，以planning方法得到最终策略

DynQ

核心算法: 采样->RL更新->模型更新->用模型生成数据更新( $\times$ n次)
DynQ+: 太久没见过的轨迹需要重新采样，所以model给出的 $k\sqrt{r}$ ，其中 $r$ 随时间递增

算法对比

均匀采样: 太浪费

on-policy采样: 收敛更快效果可能较糟(多次重复访问状态、但重复的状态误差不大没有更新意义)

backward focusing: 优先关注那些会使得价值函数变化大的采样点 $(S, A)$ 、可以用 $T D - e r r o r$ 评估重要性

启发式搜索: 使用人为设计估值函数估计(不更新)