深度强化学习（DRL）学习笔记（1 - 4章）

流荧静水

已于 2023-06-21 10:29:04 修改

阅读量1k

点赞数

分类专栏：人工智能文章标签：人工智能深度学习

于 2022-03-25 23:24:06 首次发布

本文链接：https://blog.csdn.net/weixin_43912738/article/details/123745921

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

前言
常用符号
- 摘自课本
- 概念、参数出处或者定义（方便理解和查阅）
第一章概率论基础与蒙特卡洛
- 概率论基础（具体自己补）
- 蒙特卡洛
第二章深度学习基础
第三章马尔可夫决策过程（MDP）
第四章DQN与Q学习

前言

该学习笔记源于王树森、张志华教授的《深度强化学习》
目前因为毕业设计，暂时学习到第10章（DDPG网络），我刚学（深度强化学习）DRL刚开始，我觉得我学得很乱，其中一个重要原因就是我基本上对各种符号很生疏，因此大家浏览的时候能够重点记忆常用符号
这是我第三次浏览，希望能够通过前两次的学习经验，整理有用的DRL笔记帮助大家，欢迎关注我的微信公众号右转的第二排架子，里面（将）有深度强化学习的笔记
假设大家有一点深度学习的基础，如果啥都没有的话，推荐一个很棒的视频《PyTorch深度学习实践》完结合集，保姆级教程，当然如果你python都不会那就先学python吧
如果大家还有什么建议的话，欢迎提出，大家互相学习
后续章节：5-章

常用符号

摘自课本

（后面因为懒得打英文了，而且这英文用的也不多，直接开摆）

符号	中文	英文
$S or s$	状态	state
$A or a$	动作	action
$R or r$	奖励	reward
$U or u$	回报	return
$\gamma$	折扣率	discount factor
$\mathcal{S}$	状态空间	state space
$\mathcal{A}$	动作空间	action space
$\pi(a \vert s)$	随机策略函数
$\mu(s)$	确定策略函数
$\vert s, a)$	转移函数
$Q_\pi(s,a)$	动作价值函数
$Q_*(s,a)$	最优动作价值函数
$V_\pi(s)$	状态价值函数
$V_*(s)$	最优状态价值函数
$D_\pi(s)$	优势函数
$D_*(s)$	最优优势函数
$\pi(a \vert s ;\theta)$	随机策略函数
$\mu(s; \theta)$	确定策略函数
$Q (s, a; w)$	深度Q网络
$q (s, a; w)$	价值网络

概念、参数出处或者定义（方便理解和查阅）

第二章— $w^*,b^*$ ：通过历史数据训练模型得到的参数
第二章—随机梯度下降（SGD）：在集合里面随机一个值，然后计算这里的梯度，做随机梯度下降
第二章—回报和奖励：回报是未来奖励的加权之和
第二章—动作价值函数 $Q_\pi(s_t,a_t)$ ：对 $U_t$ 求期望，消除未知的未来奖励，与策略函数 $\pi$ ，当前状态 $s_t$ 和当前动作 $a_t$ 有关
第二章—最优动作价值函数 $Q_*(s_t,a_t)$ ：计算某个状态 $s_t$ 下，采取某个动作 $a_t$ ，采取最优的策略函数 $\pi$ ，所打出的最高分数。最优价值函数只跟 $t$ 时刻的状态 $s_t$ 和 $a_t$ 有关
第二章—状态价值函数 $V_\pi(s_t)$ ：用来判断当前状态 $s_t$ （如上述棋盘的局面）是否对自己有利，以及自己和对手的胜算多大，只依赖于策略 $\pi$ 和当前状态 $s_t$
第三章—TD目标 $\widehat{y}$ ：根据一定事实依据计算的估计值，通过TD目标进行更新模型
第三章—TD误差 $\delta$ ：模型估计值与真实值之间的误差
第四章—行为策略：让智能体与环境交互，记录下观测到的状态、动作、奖励，用这些经验来学习一个策略函数，用这个策略函数 $\pi$ 去控制智能体与环境交互，这个 $\pi$ 就叫行为策略
第四章—经验回放数组：把一条轨迹划分成 $n$ 个 $s_t,a_t,r_t,s_{t+1})$ 这种，存入数组，这玩意就叫经验回放数组
第四章—目标策略：结束训练之后，用某个策略函数来控制智能体，这个函数就叫目标策略
第四章—经验回放：行为策略收集经验记录经验回放数组，使用数组中的经验进行训练目标策略，只存在异策略中

第一章概率论基础与蒙特卡洛

概率论基础（具体自己补）

强化学习经常用到随机变量和观测值两个概念
随机变量：举个栗子就是你抛硬币的结果记为 $X$ ，这玩意就是随机变量（ $X$ 取值是正面和反面），具有随机性
观测值：抛硬币后，你看到的结果就是观测值 $x$ ，没有随机性
有个叫离散概率分布，有个叫连续概率分布，有个概念叫期望，这玩意挺重要的，列个公式吧
连续概率分布和离散分布概率分布， $f (x)$ 的期望分别是
$\mathbb{E}_{X \sim p(\cdot)}[f(x)] = \sum_{x \in \mathcal{X}}p(x) \cdot f(x)\\ \mathbb{E}_{X \sim p(\cdot)}[f(x)] = \int_\mathcal{X} p(x) \cdot f(x)dx\\ 其中这个p(x)的求和是1$
二元函数的期望就不多说了
强化学习常用的有个概念叫随机抽样，大概不用多说

蒙特卡洛

蒙特卡洛是一大类随机算法的总称，它们通过随机样本来估计真实值。举个例子，假设在一个 $\times 1$ 正方形里面有个半径 $r = 1$ 的圆。显然一个点落在圆里面的概率是 $\frac{a_2}{a_1} = \frac{\pi}{4}$ 如果我们在正方形里面随机生成 $n$ 个点，设圆内的点数量为随机变量 $M$ ， $M$ 的期望等于 $\mathbb{E}[M] = pn = \frac{\pi n}{4}$ 若发现有 $m$ 个点落在圆里面（ $m$ 是真实观测值），则有 $\approx \mathbb{E}[M] = \frac{\pi n}{4}$ 得到 $\pi \approx \frac{4m}{n}$
大数定律保证了蒙特卡洛的正确性，可以使用Bernstein不等式证明
中间举了挺多例子的，这里直接讲重点的例子，近似期望。
定义 $X$ 是 $d$ 维随机变量，它的取值范围是集合 $\Omega \subset \mathbb{R}^d$ ，函数 $\mathbb{P}(X = x)$ 是 $X$ 的概率密度函数，它描述变量 $X$ 在取值点 $x$ 的可能性，设 $\Omega \rightarrow \mathbb{R}$ 是任意的多元函数，它关于变量 $X$ 的期望 $\mathbb{E}_{X \sim p(\cdot)}\big[f(X) \big] = \int_\Omega p(x) \cdot f(x)dx$ 其中一个办法是可以对集合 $\Omega$ 上做均匀抽样，得到近似的期望，下面会介绍更好的做法。我们已知了概率密度函数 $p (x)$ ，最好是按照 $p (x)$ 做非均匀抽样，具体步骤如下：
1.按照 $p (x)$ 在集合 $\Omega$ 上做非均匀抽样，得到 $n$ 个样本，记作向量 $x_1,...,x_n \sim p(\cdot)$ ，其中 $n$ 越大，近似越准确
2.对函数值 $f(x_1),...,f(x_n)$ 求平均 $q_n = \frac{1}{n}\sum_{i=1}^nf(x_i)$ 3.返回 $q_n$ 作为期望 $\mathbb{E}_{X \sim p(\cdot)}[f(x)]$ 的估计值。上述过程，为了减小内存开销。初始化 $q_0 = 0$ ，从 $t = 1$ 到 $n$ ，依次计算 $q_t = (1 - \frac{1}{t}) \cdot q_{t - 1} + \frac{1}{t} \cdot f(x_t) \tag{1.6}$ 显然这样无须存储所有的 $f(x_1),...,f(x_n)$ ，可以进一步把公式(1.6)中的 $\frac{1}{t}$ 替换 $\alpha_t$ ，得到公式 $q_t = (1 - \alpha_t) \cdot q_{t-1} + \alpha_t \cdot f(x_t)$ 这个公式叫做Robbins-Monro算法，其中 $\alpha_n$ 称作学习率，其中需要保证 $\lim_{n \rightarrow \infty} \sum_{t=1}^n \alpha_t = \infty\\\lim_{n \rightarrow \infty} \sum_{t=1}^n \alpha^2_t < \infty$ 显然 $\alpha_t = \frac{1}{t}$ 满足上述性质，因此该算法可以应用于Q学习算法中
例子其二，随机梯度。设随机变量 $X$ 为一个数据点，设 $w$ 为神经网络的参数，函数 $\mathbb{P}(X = x)$ 是 $X$ 的概率密度函数，定义损失函数 $L (X; w)$ ，损失函数值越小，意味着模型预测的越准确，因此我们需要调整 $w$ 使得损失函数的期望尽量小。神经网络的训练可以定义为这样一个优化问题 $\min_w~\mathbb{E}_{X \sim p(\cdot)}\Big[L(X;w) \Big]$ 目标函数 $\mathbb{E}_X[L(X;w)]$ 关于 $w$ 的梯度是 $\triangleq \bigtriangledown_w \mathbb{E}_{X \sim p(\cdot)}\Big[L(X;w) \Big] = \mathbb{E}_{X \sim p(\cdot)}\Big[\triangledown_w L(X;w) \Big]$ 梯度下降： $\leftarrow w - \alpha \cdot g$ 对梯度 $g$ 做蒙特卡洛近似，把近似的梯度 $\tilde{g}$ 叫随机梯度，用 $\tilde{g}$ 来替代 $g$ 更新w（具体和近似期望那个过程差不多，反正能得到） $\tilde{g} = \frac{1}{b}\sum_{j = 1}^{b}\bigtriangledown_wL(\tilde{x}_j;w)\\ \tilde{g}是随机梯度$ 然后这个蒙特卡洛的样本数量 $b$ 就称作批量大小(Batch Size)

第二章深度学习基础

建议观看上面的那个视频，这里就大概简略说一下

线性模型

线性回归

以房价预测问题讲解，设一个房屋有 $d$ 种属性，记作向量 $[x_1,x_2,\cdots,x_d]^T$ （ps：这个 $x$ 这里我懒得管要不要加转置了，后面我也不管，自己觉得怎么样就怎么样吧。下面开始正题）
然后就引出了最简单的线性模型 $\triangleq x^Tw + b\\ x：特征，这玩意在这就是变量\\ w：权重\\ b：偏移量$ 所以要算 $f (x; w, b)$ ，我们得知道 $w, b$ ，这玩意可以从历史数据来，记作 $w^*$ 和 $b^*$ ，然后就可以拿来做预测了
$f(x;w^*, b^*) \triangleq x^Tw^* + b^*\\ \widehat{y}' = f(x';w^*, b^*)\\ x'表示你要卖的房屋属性,\widehat{y}'为预测值$ 下面就是使用最小二乘法训练这个模型
1.准备训练数据表示成 $x_1, y_1),(x_2,y_2)...(x_n,y_n)$
2.对第 $i$ 个房屋价格的预测是 $\tilde{y}' = f(x';w^*, b^*)$ ，定义损失函数：
$\frac{1}{2n}\sum_{i=1}^n \Big[f(x_i;w,b) - y_i\Big]^2$ 3.定义优化模型和最优解（最小二乘回归）
$优化模型:\min_{w,b} L(w,b) + R(w)\\ 最优解:(w^*,b^*) = \underset{w,b}{argmin}~L(w,b) + R(w)\\ L(w,b) + R(w)是目标函数\\ R(w)是正则项，如R(w) = \lambda |w|^2_2~或~R(w)=\lambda||w||_1$ 4.用数值优化算法求解模型（如梯度下降）

逻辑斯蒂回归

假设上面预测值 $\tilde{y}$ 是二元变量，即0和1，那么可以用逻辑斯蒂回归解决
实际上这玩意就是要引入一个激活函数，最经典的就是 $S i g m o i d$ 函数
$\triangleq \frac{1}{1 + e^{-z}}$ 就是要把上一节的预测值 $f(\cdots)$ ，代入到这个激活函数里面，计算得到 $\widehat{y}$ ，就能保证最终的预测值在0和1之间，这玩意也叫置信率（概率论知识，自便，因为我也不会hhh）
然后还要用一个概念叫交叉熵，它用来衡量两个概率分布的差别
$[p_1,...,p_m]^T\\ \sum_{j=1}^{m}p_j = 1\\ Q = [q_1,...,q_m]^T\\ \sum_{j=1}^{m}q_j = 1\\ 交叉熵H(P, Q) = -\sum_{j=1}^{m}p_j \cdot ln~q_j$ 两个概率分布越接近，交叉熵越小
然后就可以训练模型了
1.准备数据，收集 $n$ 份二元标签的向量
2.表示成向量
$\left[ \begin{matrix} y_i\\ 1 - y_i \end{matrix} \right] 和 \left[ \begin{matrix} f(x_i;w,b)\\ 1 - f(x_i;w,b) \end{matrix} \right]$ 3.定义损失函数为平均交叉熵
$\frac{1}{n}\sum_{i=1}^nH \Bigg( \left[ \begin{matrix} y_i\\ 1 - y_i \end{matrix} \right] , \left[ \begin{matrix} f(x_i;w,b)\\ 1 - f(x_i;w,b) \end{matrix} \right] \Bigg)$ 4.定义优化问题
$min_{w,b} L(w,b) + R(w)和(w^*, b^*)$ 5.用数值优化算法求解

Softmax分类器

ps:我累了，自己看视频吧

神经网络

全连接神经网络（多层感知层）

全连接层：记输入层向量为 $\in \mathbb{R}^d$ ，神经网络的一个层为 $x$ 映射到 $\in \mathbb{R}^{d'}$
$\sigma(z)\\ z = Wx + b\\ 权重矩阵W \in \mathbb{R}^{d' \times d'}\\ 偏置向量b \in \mathbb{R}^{d'}$
全连接神经网络：说人话就是把多个全连接层连接起来，就是上图灰色背景和紫色的迭代

卷积神经网络（CNN）

原理这里不多阐述。这里只需要知道，卷积神经网络的输入是矩阵或者三阶张量；卷积网络从张量提取特征，最终输出提取的特征向量。

反向传播和梯度下降

设 $w^{(1)},...,w^{(l)}$ 为优化变量，线性模型和神经网络训练都可以变成这样一个优化问题
$min_{w^{(1)},...,w^{(l)}} L(w^{(1)},...,w^{(l)})$ 最常用的算法是梯度下降

梯度下降

梯度：目标函数 $L$ 关于一个变量 $w^{(i)}$ 的梯度记作
$\bigtriangledown_{w^{(i)}}L(w^{(1)},...,w^{(l)}) \triangleq \frac{\partial L(w^{(1)},...,w^{(l)})}{\partial w^{(i)}},\forall i =1,...,l \\ w^{(i)}的大小，类型和\triangledown_{w{(i)}}L一样$
梯度下降（GD）：目标是最小化函数值，因此沿着梯度反方向走就叫做梯度下降 (GD)
$w_{new}^{(i)} \leftarrow w_{now}^{(i)} - \alpha~\cdot~L \bigg(w_{now}^{(1)},...,w_{now}^{(l)} \bigg)$
随机梯度下降（SGD）：如果目标函数可以写成连加或者期望的形式，那就可以用这个方法求解。假设目标函数可以写成 $n$ 项连加形式
$\bigg(w^{(1)},...,w^{(l)} \bigg) = \frac{1}{n}\sum_{j=1}^{n}F_j \bigg(w^{(1)},...,w^{(l)} \bigg)$ 函数 $F_j$ 隐含第 $j$ 个训练样本 $x_j, y_j)$ ，每次会从集合 $\lbrace 1,2,\cdots,n \rbrace$ 抽一个整数，这里记作 $j$ ，计算这里的随机梯度，然后做SGD
$w_{new}^{(i)} \leftarrow w_{now}^{(i)} - \alpha~\cdot~ \triangledown_{w^{(i)}} F_j \bigg(w_{now}^{(1)},...,w_{now}^{(l)} \bigg),\forall i =1,...,l$ 实际训练训练神经网络的时候，总是用SGD（及其变体，这里不重点讲），原因就看视频

反向传播

本质是链式求导法则，这里懒得说了，自己找资料吧

第三章马尔可夫决策过程（MDP）

基本概念（一定要牢记）

状态：当前环境的一个概括，即超级玛丽的屏幕画面
状态空间：指所有可能存在的状态的集合，即棋盘上的格局，记作 $\mathcal{S}$
动作：指做出的决策，即超级玛丽的某个动作
动作空间：指所有可能动作的集合，例如 $\mathcal{A} = \lbrace up, left, right \rbrace$
智能体：做动作的主体，即马里奥
策略函数：是根据观测到的状态做出决策，控制智能体动作
$\pi(a|s) = \mathbb{P}(A=a|S=s)$ 输入：状态 $s$ 和动作 $a$ ，输出是一个0到1的数。强化学习就是学这个策略函数 $\pi$ ，举个例子
$\pi(left|s) = 0.2\\ \pi(up|s) = 0.3\\ \pi(right|s) = 0.5$
奖励：是在智能体执行一个动作之后，环境返回给智能体的一个数值，往往是自己定义的
状态转移： $s_{now} \rightarrow s'_{new}$ ，环境给出下一时刻的状态 $s^{'}$ ， $s^{'}$ 是由下面的状态转移函数生成的
环境：游戏规则，谁能生成新的状态，谁就是环境
状态转移函数：环境用于生成新的状态 $s^{'}$ 时用到的函数，随机状态转移函数记作 $p (s^{'} ∣ s, a)$
$\mathbb{P}(S'=s'|S=s,A=a)$ 状态转移函数是确定的，但是状态转移是随机的，随机性是从环境来的
智能体与环境交互：是指智能体观测到环境的状态 $s$ ，做出动作 $a$ ，动作会改变环境的状态，环境反馈给智能体奖励 $r$ 以及新的状态 $s^{'}$ 。

随机性的来源

动作的随机性来自于策略函数，给定状态 $s$ ，策略函数会计算出动作空间 $\mathcal{A}$ 中每个动作 $a$ 的概率值
状态的随机性来自于状态转移函数，状态 $s$ 和动作 $a$ 都被确定下列，下一个状态仍然有随机性
奖励 $r$ 可以看作是状态和动作的函数，假如已知当前状态 $s_t$ 和动作 $a_t$ ，奖励是唯一的，但是智能体尚未做决策之前，即 $t$ 时刻动作未知，那么该时刻奖励未知
轨迹：是指一回合 (Episode) 游戏中，智能体观测到的所有的状态、动作、奖励 $s_1,a_1,r_1,s_2,a_2,r_2,...,s_{t-1},a_{t-1},r_{t-1},s_t$ ，而随机变量（尚未被观察到的） $A_t,R_t,S_{t+1},A_{t+1},R_{t+1},S_{t+2},A_{t+2},R_{t+2}$

回报与折扣回报

回报

回报：是从当前时刻开始到一回合结束的所有奖励的总和， $t$ 时刻的回报 $U_t = R_t + R_{t+1}+R_{t+2} + R_{t+3}+...$ ，强化学习的目标是最大化回报，而不是最大化奖励，举个例子，你下棋目标时赢得比赛（目标），而不是吃掉对方一个棋子（奖励）

折扣回报

折扣率： $\gamma$ ，在0和1之间的数，顾名思义，给未来的奖励做折扣
折扣回报： $U_t = R_t + \gamma \cdot R_{t+1}+\gamma^2 \cdot R_{t+2} + \gamma^3 \cdot R_{t+3}+...$

回报中的随机性

在这里插入图片描述

分析一下上图，已知 $U_t$ 依赖于奖励 $R_t,R_{t+1},\cdots,R_n$ ，而奖励 $R_t$ 依赖于状态 $s_t$ （已观测到）与动作 $A_t$ （未知变量），奖励 $R_{t+1}$ 依赖于 $S_{t+1}$ 和 $A_{t+1}$ （未知变量），以此类推，可以知道 $U_t$ 的随机性来自于这些动作和状态
$A_t,S_{t+1},A_{t+1},S_{t+2},\cdots,S_n,A_n$ 动作的随机性来自于策略函数，状态随机性来资源状态转移函数

价值函数

本节介绍动作价值函数 $Q_\pi(s,a)$ ，最优动作价值函数 $Q_*(s,a)$ ，状态价值函数 $V_\pi(s)$ ，它们都是回报的期望

动作价值函数

上一节介绍（折扣）回报 $U_t$ ，假如我在 $t$ 时刻知道了这个值，（那我岂不是起飞？）我就知道我这游戏是寄了还是赢了。但是很明显我们无法得知未来的奖励，咋办？解决方法就是对 $U_t$ 求期望，消除其中的随机性
为什么求期望可以消除随机性？可以想一想，你如果掷硬币，你很难100%知道下一次是正面（1）还是反面（0），但是你求个期望，就是一个确定值0.5，然后引出了动作价值函数
$U_t$ 的随机性来自于 $t + 1$ 时刻之后的状态和动作 $S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A{n}$ ，求平均得到动作价值函数
$Q_\pi(s_t,a_t)=\mathbb{E}_{S_{t+1},A_{t+1},...,S_n,A_n}\Big[U_t\big|S_t=s_t,A_t=a_t\Big]$ 期望中的 $S_t = s_t,A_t=a_t$ 是条件（其实就是 $x = 常数 C$ 这个意思）
至于为什么 $Q_\pi(s_t,a_t)$ 值依赖于 $s_t$ 和 $a_t$ ，而不依赖与 $t$ 时刻以后的状态和动作，我觉得不影响理解，就懒得说了（其实是我没看到推导是啥玩意），直接说这个推导式的结论吧。 $Q_\pi(s_t,a_t)$ 依赖于策略函数 $\pi(a|s)$ ， $\pi$ 是动作的概率密度函数，用不同的 $\pi$ ，连加的结果是不一样的，因此动作价值函数 $Q_\pi$ 下标要带 $\pi$ 。
综上所述， $t$ 时刻的动作价值函数 $Q_\pi(s_t,a_t)$ 依赖于这三个因素
1.当前状态 $s_t$
2.当前动作 $a_t$
3.策略函数 $\pi$ ，策略会决定未来的动作 $A_{t+1},A_{t+2},\cdots$

最优动作价值函数

为了要消除策略 $\pi$ 的影响，引入最优动作价值函数
$Q_*(s_t,a_t) = \max_\pi~Q_\pi(s_t,a_t)\\ \forall s_t \in \mathcal{S}, a_t \in \mathcal{A}$ 这公式的意思是，在多种策略函数 $\pi$ 中选择最好的策略函数
$\pi^* = \underset{\pi}{argmax}~Q_\pi(s_t,a_t),~~~~~\forall s_t \in S,a_t \in A$ $Q_*,Q_{\pi^*}$ 指的都是最优动作价值函数，这玩意用处可大了。可以想一想，这个最优价值函数只跟 $t$ 时刻的状态 $s_t$ 和 $a_t$ 有关。假如我们在下一盘棋，当前局面代表状态 $s_t$ 我们是知道的，假设我们已知 $Q_*$ 函数，我们能从动作空间 $\mathcal{A}$ 把所有的动作 $a_t$ 取出来算一遍，给它们都打分，看到这些打分，我们是不是很容易做判断选哪个动作对赢下这局最好？这里再举例子解释一下 $Q_*$ 代表的具体含义，我们再理解一下， $Q_*(s_t,left) = -10$ ，代表在如果现在智能体选择left的动作，那不管以后智能体用什么策略函数 $\pi$ ，回报 $U_t$ 的期望最多不会超过130。

状态价值函数

用来判断当前状态 $s_t$ （如上述棋盘的局面）是否对自己有利，以及自己和对手的胜算多大，状态价值函数定义为
$V_\pi(s_t) = \mathbb{E}_{A_t \sim \pi(\cdot |s_t)}\Big[Q_\pi(s_t,A_t)\Big]=\sum_{a \in A}\pi(a|s_t) \cdot Q_\pi(s_t,a)$ 这公式把动作 $A_t$ 作为随机变量，关于 $A_t$ 求期望，就把 $A_t$ 消掉了，因此得出的状态价值函数 $V_\pi(s_t)$ 只依赖于策略 $\pi$ 和当前状态 $s_t$ ，因此它也是回报 $U_t$ 的期望
$V_\pi(s_t)=\mathbb{E}_{A_t,S_{t+1},A_{t+1},...,S_n,A_n}\Big[U_t\Big|S_t=s_t\Big]$ 状态价值 $V_\pi(s_t)$ 越大，意味着回报 $U_t$ 的期望越大

策略学习和价值学习

强化学习方法主要分为两类：基于模型的方法和无模型的方法，这里主要介绍后者。而无模型方法又可以分为价值学习和策略学习。
价值学习：通常是指学习最优价值函数 $Q_*(s,a)$ （或者 $Q_\pi(s_t,a_t)、V_\pi(s_t)$ ），假如我们已知 $Q_*$ 函数，智能体就可以根据 $Q_*$ 来做决策（其实就是我上面最优动作价值函数的例子）。智能体的决策可以用这个公式
$a_t = \underset{a \in A}{argmax}~Q_*(s_t,a)$ 怎么去学习 $Q_*$ 函数，需要用智能体收集到的状态、动作、奖励，用它们作为训练数据，学习一个表格或者一个神经网络，用于近似 $Q_*$ 。最有名的方法就是深度Q网络
策略学习：指的是学习策略函数 $\pi(a|s)$ ，假如有了策略函数，就可以直接用它计算所有动作的概率值，然后根据概率随机抽取一个动作执行，每观测到一个状态 $s_t$ ，让 $\pi$ 对所有动作做评价，得到概率值

实验环境

看视频怎么用gym库来跑Pendulum就行了

第四章DQN与Q学习

DQN

上面说了最优动作价值函数有啥用，而深度Q网络（DQN）就是用来近似学习 $Q_*$ 最有效的方法，记作 $Q (s, a; w)$ 。大概流程是，一开始初始化神经网络的参数 $w$ ，然后用“经验”学习 $w$ ，学习的目的是，对于所有的 $s$ 和 $a$ ，DQN的预测 $Q (s, a; w)$ 尽量接近 $Q_*(s,a)$ 。可以这么理解DQN的表达式，DQN输出的是离散动作空间 $\mathcal{A}$ 上每个动作的Q值，就是给每个动作打分，分越高，动作越好，例如
$\mathcal{A} = \lbrace left, right, up\rbrace\\ \widehat{q}_1 = Q(s,left;w) = 370\\ \widehat{q}_2 = Q(s,right;w) = -21\\ \widehat{q}_3 = Q(s,up;w) = 610\\$ 注意DQN输出的是 $\mathcal{A}$ 维的向量 $\widehat{q}$ ，常用的符号 $Q (s, a; w)$ 是标量，是向量 $\widehat{q}$ 中的一个元素
DQN的梯度公式：
$\bigtriangledown_wQ(s,a;w) \triangleq \frac{\partial Q(s,a;w)}{\partial{w}}$ 其中 $w$ 的形状和上述梯度完全相同

时间差分（TD）算法

因为这玩意不太好理解所以书上举个例子（但是我觉得挺好理解的）

例子

假设有个模型 $Q (s, d; w)$ 其中 $s, d, w$ 分别是起点、终点和参数，我们要训练这个模型。在出发之前，用户告诉起点 $s$ 和终点 $d$ ，这个模型先做一个预测 $\widehat{q} = Q(s,d;w)$ ，在用户结束行程的时候把实际驾车时间 $y$ 反馈给模型，通过两者比较计算误差来更新模型
假设我从北京到上海实际花费16个小时，模型的估计值是14小时，即 $\widehat{q} = 14, y = 16$ ，然后就训练一次（具体流程后面再说）

TD算法

假设我从北京到上海估计需要 $\widehat{q} = 14$ 小时，中间路过了济南。假设我从北京到济南的实际时间是 $r = 4.5$ 小时，而我到达济南后模型再一次估计，从济南到上海估计需要 $\widehat{q}' = 11$ 小时。到达济南的时候，显然根据模型最新的估计值，整个旅途的总时间是
$\widehat{y} \triangleq r + \widehat{q}' = 4.5 + 11 = 15.5$ TD算法将这个 $\widehat{y}$ 称为TD目标，很显然这个 $\widehat{y} = 15.5$ 比单纯的 $\widehat{q} = 14$ 靠谱，因为前者是有事实的推断，后者纯粹是瞎猜的。
根据上面的阐述，所以可以使用 $\widehat{y}$ 对模型做“修正”，我们希望估计值 $\widehat{q}$ 尽量接近TD目标 $\widehat{y}$ 。然后定义一个TD误差
$\delta = \widehat{q} - \widehat{y}$ 这玩意是计算损失函数（估计值 $\widehat{q}$ 和TD目标 $\widehat{y}$ 差值的平方）求导得到的一个差值，在上述例子的含义就是：根据两次模型的估计做差值，我可以得知，该模型估计我从北京到济南的时间是 $\widehat{q} - \widehat{q}' = 3$ 小时，但是我实际上花费了 $r = 4.5$ 小时，这个TD误差就是 $\delta = 3 - 4.5 = -1.5$ ，即模型的估计与我的真实观测之差。

用TD训练DQN

算法推导

回报的定义变式
$U_t = R_t + \underbrace{\gamma \cdot \sum_{k = t+1}^n\gamma^{k-t-1} \cdot R_k}_{U_{t+1}}$
最优动作价值函数可以写成
$Q_*(s_t,a_t) = \max_\pi~\mathbb{E}\Big[U_t | S_t = s_t, A_t = a_t \Big]$
从上面两个公式出发，可以得到定理最优贝尔曼方程
$\underbrace{Q_*(s_t,a_t)}_{U_t的期望} = \mathbb{E}_{S_{t+1} \sim p(\cdot|s_t,a_t)}\Big[R_t + \gamma \cdot \underbrace{\max_{A \in \mathcal{A}}Q_*(S_{t+1}, A)}_{_{U_{t+1}的期望}} | S_t = s_t,A_t = a_t\Big]$ 当智能体执行动作 $a_t$ 之后，环境通过状态转移函数 $p(s_{t+1}|s_t,a_t)$ 计算出新状态 $s_{t+1}$ ，然后反馈给智能体，奖励 $R_t$ 最多依赖于 $S_t,A_t,S_{t+1}$ ，因此当观测到 $s_t,a_t,s_{t+1}$ ，则奖励 $R_t$ 也被观测到，记作 $r_t$ ，因此有了四元组
$s_t,a_t,r_t,s_{t+1})$ 然后就有了贝尔曼方程右边期望的一个蒙特卡洛近似
$Q_*(s_t,a_t) = r_t + \gamma \cdot \max_{a \in \mathcal{A}}Q(s_{t+1}, a) \tag{4.1}$ 左边 $Q_*(s_t,a_t)$ 就像北京到上海的时间， $r_t$ 像是实际观测的北京到济南时间， $\gamma \cdot \max_{a \in \mathcal{A}}Q(s_{t+1}, a)$ 像是模型估计剩余路程耗费的时间，把公式(4.1)替换长城神经网络的形式得到
$\underbrace{Q(s_t,a_t;w)}_{预测\widehat{q}_t} \approx \underbrace{r_t + \gamma \cdot \max_{a \in \mathcal{A}}Q(s_{t+1}, a)}_{TD目标\widehat{y}_t}$ 然后定义损失函数
$\frac{1}{2} \Big[Q(s_t,a_t;w) - \widehat{y}_t \Big]^2$ ，假装 $\widehat{y}_t$ 是常数（实际上是依赖于 $w$ ），计算 $L$ 关于 $w$ 的梯度
$\bigtriangledown_w L(w) = \underbrace{\widehat{q}_t - \widehat{y}_t}_{TD误差\delta_t} \cdot \bigtriangledown_w Q(s_t,a_t;w)$ 然后梯度下降，让 $\widehat{q}_t$ 更接近 $\widehat{y}_t$
$\leftarrow w - \alpha \cdot \delta_t \cdot \bigtriangledown_w Q(s_t,a_t;w)$ 上面这个公式就是训练DQN的TD算法

训练流程

算法所需数据维 $s_t,a_t,r_t,s_{t+1})$ 这个四元组，与控制智能体运动的策略 $\pi$ 无关，因此可以用任何策略控制智能体，同时记录下算法轨迹，作为DQN的训练数据，因此训练分为两个独立的部分，收集训练数据、更新参数 $w$
收集训练数据：用策略函数 $\pi$ 去控制智能体与环境交互，这个 $\pi$ 就叫行为策略，常用的是 $\epsilon-greedy$
$a_t = \begin{cases} \underset{a}{argmax}Q(s_t,a;w) & 以概率(1-\varepsilon) \\ 均匀抽取A中的一个动作 & 以概率\varepsilon \\ \end{cases}$ 把智能体在一局游戏中的轨迹记作
$s_1,a_1,r_2,\cdots,s_n,a_n,r_n$ 把一条轨迹划分成 $n$ 个 $s_t,a_t,r_t,s_{t+1})$ 这种，存入数组，这玩意就叫经验回放数组
更新DQN参数 $w$
1.对DQN做正向传播
$\widehat{q}_j = Q(s_j,a_j;w_{now})\\ \widehat{q}_{j+1} = \max_{a \in \mathcal{A}}Q(s_{j+1},a;w_{now})$ 2.计算TD目标和TD误差
$\widehat{y}_j=r_j+\gamma \cdot \widehat{q}_{j+1}\\ \delta_j = \widehat{q}_j - \widehat{y}_j$ 3.对DQN做方向传播得到梯度
$g_j = \triangledown_wQ(s_j,a,;w_{now})$ 4.做梯度下降更新DQN的参数：
$w_{new} \leftarrow w_{now} - \alpha \cdot \delta_j \cdot g_j$ 智能体收集数据、更新DQN参数这两者可以同时进行

Q学习算法

上一节准确的说，使用的TD算法叫做Q学习算法（Q-learning），TD算法是一大类算法，常见的有Q学习算法和SARSA算法，前面是学到最优的动作价值函数 $Q_*$ ，后面是为了学习动作价值函数 $Q_\pi$
用表格表示 $Q_*$ ，假设状态空间 $\mathcal{S}$ 和动作空间 $\mathcal{A}$ 都是有限集，如图所示

做决策使用的公式为
$a_t = \underset{a \in \mathcal{A}}{argmax}~Q_*(s_t,a)$ （选哪些动作就不说废话了）
我们要通过智能体的轨迹来学习这样的一个表格，即使用一个表格 $\tilde{Q}$ 来近似 $Q_*$ ，首先初始化 $\tilde{Q}$ ，然后使用表格形式的Q学习算法更新 $\tilde{Q}$ ，每次更新表格的一个元素，最终 $\tilde{Q}$ 会收敛于 $Q_*$
算法推导：由贝尔曼方程可知
$Q_*(s_t,a_t) = \mathbb{E}_{S_{t+1} \sim p(\cdot|s_t,a_t)}\Big[R_t + \gamma \cdot \max_{A \in \mathcal{A}}Q_*(S_{t+1}, A) | S_t = s_t,A_t = a_t\Big]$ 1.方程左边 $Q_*(s_t,a_t)$ 可以近似成 $\tilde{Q}(s_t,a_t)$ ， $\tilde{Q}(s_t,a_t)$ 是表格在 $t$ 时刻对 $Q_*(s_t,a_t)$ 做出的估计（也就是对表格所有元素做估计）。
2.蒙特卡洛近似得到
$r_t + \gamma \cdot \max_{a \in \mathcal{A}}Q(s_{t+1}, a)$ 进一步近似可得到TD目标
$\widehat{y}_t \triangleq r_t + \gamma \cdot \max_{a \in \mathcal{A}} \tilde{Q}(s_{t+1},a)$ 它是表格在 $t + 1$ 时刻对 $Q_*(s_t,a_t)$ 做出的估计，虽然 $\tilde{Q}$ 和 $\widehat{y}_t$ 都是对 $Q_*$ 的估计，但是 $\widehat{y}_t$ 更加真实一点，因此鼓励 $\tilde{Q}$ 接近 $\widehat{y}_t$ ，然后更新表格 $\tilde{Q}$ 中 $s_t,a_t)$ 位置上的元素
$\tilde{Q}(s_t,a_t) \leftarrow (1 - \alpha) \cdot \tilde{Q}(s_t,a_t) + \alpha \cdot \widehat{y}_t$ Q学习的目的就是让 $\tilde{Q}$ 更加趋近于 $Q_*$
收集训练数据：就是上面说的搞一个轨迹，划为四元组，使用 $\epsilon - greedy$ 行为策略，事后用经验回放更新表格 $\tilde{Q}$
经验回放更新表格 $\tilde{Q}$ ：随机从经验回放数组抽一个四元组，更新当前表格 $\tilde{Q}_{now}$ 中 $s_j,a_j)$ 位置上的元素后表格记作 $\tilde{Q}_{new}$
1.把表格中 $\tilde{Q}_{now}$ 中第 $s_j,a_j)$ 位置上的元素记作：
$\widehat{q}_j = \tilde{Q}_{now}(s_j,a_j)$ 2.查看表格 $\tilde{Q}_{now}$ 的第 $s_{j+1}$ 行，把该行的最大值记作：
$\tilde{q}_{j+1} = \max_a\tilde{Q}_{now}(s_{j+1},a)$ 3.计算TD目标和TD误差
$\widehat{y}_j = r_j + \gamma \cdot \widehat{q}_{j+1}\\ \delta_j= \widehat{q}_j - \widehat{y}_j$ 4.更新表格中 $s_j,a_j)$ 位置上的元素：
$\tilde{Q}_{new}(s_j,a_j) \leftarrow \tilde{Q}_{now}(s_j,a_j) - \alpha \cdot \delta_j$ 收集经验与更新表格 $\tilde{Q}$ 可以同时进行，每当智能体执行一次动作，我们可以用经验回放对 $\tilde{Q}$ 做几次更新，也可以完成一局游戏，对 $\tilde{Q}$ 做几次更新

同策略（On-policy）与异策略（Off-policy）

这节很重要，一定要重点理解行为策略和目标策略是干嘛的
行为策略：让智能体与环境交互，记录下观测到的状态、动作、奖励，用这些经验来学习一个策略函数。在这一过程中，控制智能体与环境交互的策略被称作行为策略（又说了一遍），行为策略作用就是第一句所说的，换个意思就叫收集经验
目标策略：训练的目的是得到一个策略函数，在结束训练之后，用这个策略函数来控制智能体；这个策略函数就叫做目标策略，在本章中，目标策略是一个确定性的策略，即使用DQN控制智能体
$a_t = \underset{a}{argmax}~Q(s_t,a;w)$ 本章中Q学习算法用任意的行为策略 $\epsilon - greedy$ 收集四元组，然后拿来训练目标策略。
行为策略和目标策略可以相同，也可以不同。同策略是指用相同的行为策略和目标策略，异策略（本章的DQN）则用不同的行为策略和目标策略。
异策略的好处就是可以使用行为策略收集经验，记录到经验回放数组，然后使用这些经验去更新目标策略，这种训练方式叫作经验回放（只适合异策略）。