《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch8 值函数拟合【基于近似函数的 TD 算法：Sarsa、Q-leaning、DQN】

最新推荐文章于 2024-07-01 09:33:19 发布

Gaogaogaoshu

最新推荐文章于 2024-07-01 09:33:19 发布

阅读量599

点赞数 17

分类专栏： # 强化学习文章标签：强化学习笔记

本文链接：https://blog.csdn.net/weixin_46034116/article/details/138874536

版权

强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍

1、学堂在线视频 + 习题
2、相应章节过电子书复习【下载：本章 PDF GitHub 页面链接】
3、 MOOC 习题
跳过的 PDF 内容

学堂在线课程页面链接
 中国大学MOOC 课程页面链接
 B 站视频链接

PPT和书籍下载网址：【GitHub链接】

文章目录

在这里插入图片描述

第 7 章：基于表格的 TD 学习算法
本章：基于函数的 TD 学习算法

神经网络

DQN

在这里插入图片描述

8.1 值表示：表格 ——> 函数

在这里插入图片描述

表格：直接重写表中相应的条目
函数：通过更新 $w$ 间接地更改值

优点：直观，便于分析。
缺点：难以处理大的或连续的状态或动作
两个方面：1) 存储； 2) 泛化能力。

有很多的状态-动作对，不可能都访问到。

曲线近似，节省存储空间。

无法精确表示状态值。

函数近似法通过牺牲精度来提高存储效率。

idea：使用参数化函数 $\hat v(s, w)\approx v_\pi(s)$ 近似状态和动作值，其中 $\in \mathbb R^m$ 是参数向量。

优点:
1) 存储 $w$ 的维数可能比 $|\mathcal S|$ 小得多。
2) 泛化：
当一个状态 $s$ 被访问时，参数 $w$ 被更新，这样其他一些未访问状态的值也可以被更新。通过这种方式，学习值可以推广到未访问状态。

8.2 状态值估计

真实状态值 $v_\pi(s)~~~$ 估计值 $\hat v(s, w)$

为了找到最优的 $w$ ，我们需要两个步骤:
1、定义一个目标函数。
2、推导优化目标函数的算法。

目标函数： $=\mathbb E[(v_\pi(S)-\hat v(S, w))^2]$

误差的平方。

——————
期望是关于随机变量 $S\in \mathcal S$ 的，那么 $S$ 的概率分布是什么？

平均分布。每个状态的权重都是 $\frac{1}{|\mathcal S|}$

$=\mathbb E[(v_\pi(S)-\hat v(S, w))^2]=\frac{1}{|\mathcal S|}\sum\limits_{s\in\mathcal S}(v_\pi(s)-\hat v(s, w))^2$

给重要的状态更大的权重。

平稳分布：稳态分布，极限分布

马尔可夫过程的长期行为

在代理执行给定策略足够长的时间后，代理处于任何状态的概率可以用这个平稳分布来描述。

基于策略 $\pi$ 的马尔可夫过程的平稳分布： $\{d_\pi(s)\}_{s\in\mathcal S}$

$d_\pi(s) \geq 0$ 且 $\sum\limits_{s\in\mathcal S}d_\pi(s) =1$

$=\mathbb E[(v_\pi(S)-\hat v(S, w))^2]=\sum\limits_{s\in\mathcal S}\textcolor{blue}{d_\pi(s)}(v_\pi(s)-\hat v(s, w))^2$

这个函数是加权平方误差。
由于访问频率越高的状态具有更高的 $d_\pi(s)$ 值，因此它们在目标函数中的权重也高于访问频率越低的状态。

在这里插入图片描述

——————
优化目标函数

最小化梯度下降

在这里插入图片描述
用随机梯度替换真实梯度，避免计算期望。

$w_{t+1}=w_t+\alpha_t(v_\pi(s_t)-\hat v(s_t,w_t))\nabla _w\hat v(s_t, w_t)$

问题： $v_\pi$ 未知。——> 用近似值替换
方式一：基于 MC 学习。用 episode 中从 $s_t$ 开始的折扣回报 $g_t$ 替换 $v_\pi(s_t)$ 。
即 $w_{t+1}=w_t+\alpha_t(\textcolor{blue}{g_t}-\hat v(s_t,w_t))\nabla _w\hat v(s_t, w_t)$
方式二：基于 TD 学习。
$v_\pi(s_t)$ 。
即 $w_{t+1}=w_t+\alpha_t[\textcolor{blue}{r_{t+1}+\gamma \hat v(s_{t+1},w_t)}-\hat v(s_t,w_t)]\nabla _w\hat v(s_t, w_t)$

在这里插入图片描述

——————
如何选择 $\hat v(s,w)$ ?

方式一：线性近似。 $\hat v(s, w)=\phi^T(s)w$

特征向量 $\phi(s)$ 。系数

方式二：非线性近似。神经网络。

神经网络的输入为状态，输出为 $\hat v(s, w)$ ，网络参数为 $w$ 。

在这里插入图片描述

线性近似的优缺点：
缺点：难以选择合适的特征向量。
优点：易于理解。

表格表示是线性函数近似的特例。
考虑状态 $s$ 的特征向量的特殊情况。
$\phi(s)=e_s\in\mathbb R^{|\mathcal S|}$
$e_s$ : 第 $s$ th 个数为 1 ，其它为 0 的向量。
$\hat v(s, w)=\phi^T(s)w=e^T_sw=w(s)$
$w (s)$ ： $w$ 的第 $s$ th 个数

在这里插入图片描述

——————
例子：
在这里插入图片描述

——————

TD-Linear 算法最小化的是投影贝尔曼误差。

在这里插入图片描述

P3 Sarsa + 值函数近似

$w_{t+1}=w_t+\alpha_t[r_{t+1}+\gamma\hat q(s_{t+1}, a_{t+1}, w_t)-\hat q(s_t,a_t,w_t)] \nabla_w\hat q(s_t, a_t, w_t)$

在这里插入图片描述

Q 学习 + 函数近似

$w_{t+1}=w_t+\alpha_t[r_{t+1}+\gamma \textcolor{blue}{\max\limits_{a\in\mathcal A(s_{t+1})}}\hat q(s_{t+1},\textcolor{blue}{a} , w_t)-\hat q(s_t,a_t,w_t)] \nabla_w\hat q(s_t, a_t, w_t)$

在这里插入图片描述

8.4 Deep Q-leaning 【DQN】

Deep Q-learning、deep Q-network (DQN)

最成功地将深度神经网络引入强化学习的算法之一。

应用和方法
应用：在一系列游戏控制上达到人类控制的水平。
方法：关键技术后续被广泛使用。

在这里插入图片描述

目标函数：
在这里插入图片描述
优化：

我们可以在计算梯度时假设 $y$ 中的 $w$ 是固定的(至少在一段时间内是固定的)。

在这里插入图片描述
使用两个网络，分别估计 $w$
主网络的 $w$ : 一直更新
目标网络的 $w_T$ ：隔一段时间更新

在这里插入图片描述

DQN 的基本思想是使用梯度下降算法最小化目标函数。

2 个重要技巧：

1、两个网络：一个主网络和一个目标网络。
实现细节：
令 $w$ 和 $w_T$ 分别表示主网络和目标网络的参数。它们最初被设置为相同的。
在每次迭代中，我们从重放缓冲区中提取一小批样本 ${(s, a, r, s')\}$ 。
网络的输入包括状态 $s$ 和动作 $a$ ，目标输出为 $y_T =r+ \gamma \max\limits_{a\in \cal A(s') }\hat q(s',a,w_T)$ 。然后，我们直接最小化小批次 ${(s, a,y_T)\}$ 上的 TD 误差或称为损失函数 $(y_T - \hat q(s, a, w))^2$ 。

2、经验回放

replay buffer 回放缓冲 $\mathcal B=\{(s, a, r, s^\prime)\}$

每次我们训练神经网络时，我们都可以从回放缓冲区中抽取一小批随机样本。

均匀分布经验回放。

为什么 DQN 需要经验回放?为什么重播必须遵循均匀分布?

在这里插入图片描述
然而，样本并不是统一收集的，因为它们是由某些策略生成的。
为了打破后续样本之间的相关性，我们可以使用经验重放技术，从重放缓冲区中均匀地提取样本。

更充分地使用数据

在这里插入图片描述

再强大的算法也需要好的数据才能 work。

8.6

目标函数涉及到状态的概率分布，该分布通常选为平稳分布。

为什么深度 Q-learning 需要经验回放?
原因在于 (8.37) 中的目标函数。特别是，为了很好地定义目标函数，我们必须指定 $S, A, R, S^{'}$ 的概率分布。
当 $(S, A)$ 给定时，由系统模型确定 $R$ 和 $S^{'}$ 的分布。
描述状态-行为对 $(S, A)$ 分布的最简单方法是假设它是均匀分布的。然而，状态-动作样本在实践中可能不是均匀分布的，因为它们是由行为策略作为一个序列生成的。为了满足均匀分布的假设，有必要打破序列中样本之间的相关性。为此，我们可以使用经验重放技术，从重放缓冲区中均匀地抽取样本。经验回放的一个好处是，每个经验样本可以被多次使用，这可以提高数据效率。
在这里插入图片描述