▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式【状态值、动作值】

本文链接：https://blog.csdn.net/weixin_46034116/article/details/138489498

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍

1、学堂在线视频 + 习题
2、相应章节过电子书复习 GitHub界面链接
3、总体 MOOC 过一遍
还是跳过了一些 P38

学堂在线课程页面链接
 中国大学MOOC 课程页面链接
 B 站视频链接

PPT和书籍下载网址：【github链接】

文章目录

状态值：agent 在遵循给定策略时所能获得的平均奖励。
状态值越大，对应的策略越好。
状态值可以用作评估策略是否良好的度量。
通过求解 Bellman 方程，可以得到状态值。

在这里插入图片描述
状态值
贝尔曼公式

在这里插入图片描述

——————

2.1 return：可评估策略的好坏

回报 return：沿着一个轨迹获得的奖励折扣和。
可用于评估策略

return 可以评估策略的好坏

计算 return 的值，来评估以下 3 个策略
3 种策略的区别在于第一格。策略 1 是往下走，策略 2 是往右走，策略 3 往下和往右的概率分别为 50%。其它格相同。

计算 return

方法一：根据定义

回报 return 等于沿轨迹收集的所有奖励的折扣总和。

在这里插入图片描述

$\rm return_3$ 严格来说是状态值。【计算涉及两条轨迹】从状态 $s_1$ 出发得到的平均 return。

return 是针对一个轨迹而言。
状态值可能是多个轨迹。

在这里插入图片描述

通过数学求解得到的结论和直觉一致，成功将直觉数学化。

——> 可用 return 评估策略。

方法二：根据状态间回报的依赖关系

$v_i$ ：从 $s_i$ 出发获得的回报

例：
在这里插入图片描述

推导：
$v_1=r_1+\gamma r_2 + {\gamma}^2r_3+...=r_1 +\gamma(r_2+\gamma r_3+...)=r_1+\gamma v_2$
$v_2=r_2+\gamma r_3 + {\gamma}^2r_4+...=r_2 +\gamma(r_3+\gamma r_4+...)=r_2+\gamma v_3$
$v_3=r_3+\gamma r_4 + {\gamma}^2r_1+...=r_3 +\gamma(r_4+\gamma r_1+...)=r_3+\gamma v_4$
$v_4=r_4+\gamma r_1 + {\gamma}^2r_2+...=r_4 +\gamma(r_1+\gamma r_2+...)=r_4+\gamma v_1$

写成矩阵形式

$\begin{align*} \begin{bmatrix} v_1 \\ v_2 \\ v_3 \\ v_4 \\ \end{bmatrix} &= \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \\ \end{bmatrix} + \gamma\begin{bmatrix} v_2 \\ v_3 \\ v_4 \\ v_1 \end{bmatrix}\\ ~\\ &= \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \\ \end{bmatrix} + \gamma\begin{bmatrix} 0 & 1 & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1\\ 1 & 0 & 0 & 0 \end{bmatrix}\begin{bmatrix} v_1\\ v_2 \\ v_3 \\ v_4 \\ \end{bmatrix}\\ ~\\\mathbf{v}&=\mathbf{r}+\gamma\mathbf{P}\mathbf{v} \end{align*}$

Bellman 方程的核心思想：从一种状态出发所获得的收益依赖于从其他状态出发所获得的收益。

从不同状态出发得到的 return ，依赖于从其它状态出发得到的 return。【强化学习中的 Bootstrapping 思想】

Bootstrapping：从自己出发不断迭代得到的一些结果。

在这里插入图片描述

2.3 State value 状态值 $v_\pi(s)$

之前提到，回报 return 可用来评估策略。然而，它们不适用于随机系统，因为从一个状态出发可能导致不同的回报。
——> 用状态值评估

在这里插入图片描述

随机变量大写

多步 trajectory：
$S_t\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},\cdots$

折扣回报：
$G_t=R_{t+1}+\gamma R_{t+2}+{\gamma}^2R_{t+3}+\cdots$

$\gamma \in [0, 1)$ 为折扣率

$R_{t+1}$ 开始累积！！！

——————————————

状态值函数 / 状态值: $v_\pi(s)=\mathbb{E}[G_t|S_t=s]$

$G_t$ 的期望【期望值/均值】
状态值的值还具有价值的含义，值越大，表示价值越大，从这个状态出发能获得更多的回报。

状态值 $v_\pi(s)$ 取决于状态 $s$ 和策略 $\pi$ , 和时间步长 $t$ 无关。

return VS state value
return: 针对单个 trajectory
state value: 多个 trajectory 的 return 的平均值

从某个状态出发，有可能得到多个 trajectory，此时得到的值可能不一样。
当从某个状态出发，仅存在一条 trajectory，此时两者相同

状态值与回报 return 之间的关系：

当策略和系统模型都是确定的时，从一个状态出发总是会导致相同的轨迹。在这种情况下，从一个状态开始获得的回报值等于状态值。
当策略或系统模型是随机的，从相同的状态出发可能会产生不同的轨迹。在这种情况下，不同轨迹的回报是不同的，状态值是这些回报的均值。

虽然可以使用回报 return 来评估策略，如 2.1 节所示，但是使用状态值来评估策略更为正式：状态值更大的策略更好。

在这里插入图片描述

计算 3 个不同策略下，同一状态 $s_1$ 出发的 value

2.4 贝尔曼公式推导

P3 贝尔曼公式推导

贝尔曼公式 描述了不同状态的 state value 之间的关系。

对于某个 trajectory：
$S_t\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},...$
折扣回报：
$\begin{align*}G_t &=R_{t+1}+\gamma R_{t+2}+{\gamma}^2R_{t+3}+...\\ &= R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+...)\\ &=R_{t+1}+\gamma G_{t+1}\end{align*}$
状态值
$\begin{align*}v_\pi(s)&=\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma \mathbb{E}[G_{t+1}|S_t=s]\end{align*}$
其中
即时奖励均值
$\begin{align*}\mathbb{E}[R_{t+1}|S_t=s] &= \sum_a\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s, A_t=a]\\ &=\sum_a\pi(a|s)\sum_rp(r|s, a)r\end{align*}$

动作的集和 $\textcolor{blue}{\mathcal A(s)}, a \in \mathcal A(s)$ ；回报的集合 $\textcolor{blue}{\mathcal R(s, a)},r\in\mathcal R(s, a)$

在状态 $s$ ，可以执行多个动作，执行动作 $a$ 的概率是 $\pi(a|s)$ ，得到的回报是后面那一串【从 $s$ 出发，执行动作 $a$ ，得到奖励 $r$ 的概率是 $p (r ∣ s, a)$ ，分别乘上奖励 $r$ 的值，求和得到期望】。

未来奖励【延迟奖励】均值
$\begin{align*}\mathbb{E}[G_{t+1}|S_t=s] &= \sum_{s^{\prime}}\mathbb{E}[G_{t+1}|\textcolor{blue}{S_t=s, }S_{t+1}=s^{\prime}]p(s^{\prime}|s)\\ &=\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t+1}=s^{\prime}]p(s^{\prime}|s)~~~~~\textcolor{blue}{马尔可夫性质：仅取决于当前的状态，和之前的状态无关}\\ &= \sum_{s^{\prime}} v_\pi (s^{\prime})p(s^{\prime}|s)\\ &= \sum_{s^{\prime}} v_\pi (s^{\prime})\sum_ap(s^{\prime}|s, a)\pi(a|s)\end{align*}$
从状态 $s$ 出发，得到下一时刻 return 的均值
从状态 $s$ 出发，可以跳到多个不同的状态 $s^\prime$ ，跳到 $s^\prime$ 的概率是 $p(s^\prime|s)$ ，折扣和是前面那一串

表征状态值之间关系的贝尔曼公式：

在这里插入图片描述

每个状态有一个这样的方程。

——————————————
PDF 补充：

贝尔曼公式：

$v_\pi(s)=\sum\limits_{a}\pi(a|s)\Big[\sum\limits_{r}p(r|s,a)r + \gamma \sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\Big]$

贝尔曼公式的另两种等效写法：

等效写法一：
$p(s^\prime|s, a)=\sum\limits_{r}p(s^\prime,r|s, a)~~~~$ 后续是否进入某个状态取决于回报

$a)=\sum\limits_{s^\prime}p(s^\prime,r|s, a)~~~~$ 获得某个回报的概率取决于后续状态

$v_\pi(s)=\sum\limits_a\pi(a|s)\textcolor{blue}{\sum\limits_{s^\prime}\sum\limits_rp(s^\prime,r|s, a)}[r+\gamma v_\pi(s^\prime)])$

等效写法二 : 某些问题的回报 $r$ 仅取决于下一状态 $s^\prime$
$v_\pi(s)=\sum\limits_a\pi(a|s)\sum\limits_{s^\prime}p(s^\prime|s,a)[r(s^\prime)+\gamma v_\pi(s^\prime)]$

——————————————

2.5 示例：确定相应的贝尔曼方程

2.5 如何写出 Bellman 方程并逐步计算状态值

如何写出 Bellman 方程并逐步计算状态值。

在这里插入图片描述

示例 2：

在这里插入图片描述

在这里插入图片描述

上一个示例采取的策略计算得到的 $v_\pi(s_1)$ 比当前这个示例大，因为上一个示例直接往下走，当前这个示例有 50% 的概率会往右走，有可能会进入禁区，策略没有上一个示例的好。

状态值大 ——> 策略好。

2.6 贝尔曼公式的矩阵和向量形式

状态值
$\begin{align*}v_\pi(s) &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma \mathbb{E}[G_{t+1}|S_t=s] \\ &=\sum_a\pi(a|s)\sum_rp(r|s, a)r + \gamma\sum_a \pi(a|s)\sum_{s^{\prime}} p(s^{\prime}|s, a)v_\pi (s^{\prime})\\ &= r_\pi(s)+\gamma\sum_{s^{\prime}}p_\pi(s^{\prime}|s)v_\pi(s^{\prime})\end{align*}$

$v_\pi(s_i)=r_\pi(s_i) + \gamma\sum_{s_j}p_\pi(s_j|s_i)v_\pi(s_j)$
$\bm v_\pi=\bm{r}_\pi+\gamma \bm P_\pi \bm v_\pi$

状态转移矩阵 $~P_\pi\in\mathbb R^{n\times n}$ ， $[P_\pi]_{ij}=p_\pi(s_j|s_i)~~~$ 矩阵 $P_\pi$ 第 $i$ 行第 $j$ 列的值
$\bm v_\pi=[v_\pi(s_1),v_\pi(s_2), \cdots, v_\pi(s_n)]^T\in \mathbb R^n$
$\bm r_\pi=[r_\pi(s_1),r_\pi(s_2), \cdots,r_\pi(s_n)]^T\in \mathbb R^n$

关于状态转移矩阵 $P_\pi$ ：
1、非负矩阵，所有元素都等于或大于零。 $P_\pi\geq0$
2、随机矩阵，每一行的值之和等于 1。 $P_\pi \bm 1=\bm 1, ~~\bm 1=[1, \cdots,1]^T$

状态转移矩阵：

在这里插入图片描述

计算示例 1：
在这里插入图片描述

计算示例 2：
在这里插入图片描述

观察发现， $P_\pi$ 每一行的值之和等于 1。 $P_\pi \bm 1=\bm 1, ~~\bm 1=[1, \cdots,1]^T$

2.7 求解贝尔曼公式 —> 求得状态值

为什么要求状态值？
给定一个策略，找出相应的状态值称为策略评估！这是找到更好策略的基础。

求解贝尔曼方程是进行策略评估的重要步骤。

在这里插入图片描述

——————————————————————

在这里插入图片描述

证明： $v_k$ 最终收敛到 $v_\pi$
归纳法
定义误差 $\Delta_k = v_k-v_\pi$ ，只需证明 $\Delta_k\to0$
将用到的等式
① 贝尔曼公式 $v_\pi = r_\pi + \gamma P_\pi v_\pi$
② $v_{k + 1} =\Delta_{k +1}+v_\pi~~~~~$ 误差定义
③ $v_k=\Delta_k+v_\pi~~~~~$ 误差定义
————————
$v_{k + 1} = r_\pi + \gamma P_\pi v_k~~~~~$ 迭代式
——> $\Delta_{k +1}+v_\pi=r_\pi+\gamma P_\pi(\Delta_k+v_\pi) ~~~~~$ ②③
——> $\Delta_{k +1}= -v_\pi+r_\pi+\gamma P_\pi\Delta_k+\gamma P_\pi v_\pi =\gamma P_\pi\Delta_k~~~~~$ ①
迭代递推
$\Delta_{k +1}=\gamma P_\pi\Delta_k=\gamma^2 P_\pi^2\Delta_{k-1}=\gamma^3 P_\pi^3\Delta_{k-2}=...=\gamma ^{k+1}P_\pi^{k+1}\Delta_0$

例子：

比较好的策略：
在这里插入图片描述

不同的策略可能具有相同的状态值。
离目标区域越近，状态的状态值越大。

不太好的策略：
在这里插入图片描述
状态值大多为负数

——> 可以计算状态值来评价一个策略的好坏。

2.8 Action value 动作值 $q_\pi(s, a)$

状态值：在某个状态执行某个动作的价值【回报期望值】

P5 Action value：选哪个 action

State value VS Action value
State value：从某个状态出发获得的平均回报。 $v_\pi(s)$
Action value: 从某个状态出发，执行某个动作后的平均回报。 $q_\pi(s, a)$

在一个状态中，根据 action value 选择哪个 action。

action value 大意味着执行相应的 action 能获得更大回报。

在这里插入图片描述

$v_\pi(s)=\sum\limits_a\pi(a|s)q_\pi(s, a)$

在这里插入图片描述

动作值 = 即时奖励的均值 + 未来奖励的均值。

例子：
在这里插入图片描述

当前的策略规定 s1 要执行向右的动作，但这个策略有可能不是最佳策略，仍需要计算执行其它动作相应的动作值，为策略改进做准备。

在这里插入图片描述

先计算 state values, 再计算 action values 。
在没有模型的情况下，通过数据直接计算 action values。

小结：在这里插入图片描述
————————
PDF 补充：

基于状态值的贝尔曼公式：
$v_\pi(s)=\sum\limits_{a}\pi(a|s)\Big[\sum\limits_{r}p(r|s,a)r + \gamma \sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\Big]$

2.8.2 动作值的贝尔曼方程

$q_\pi(s, a)=\sum\limits_rp(r|s, a)r+\gamma\sum\limits_{s^\prime}p(s^{\prime}|s,a)\sum\limits_{a^\prime \in\cal A(s^\prime)}\pi(a^\prime|s^\prime)q_\pi(s^\prime,a^\prime)$

矩阵-向量形式：

$q_\pi=\widetilde r+\gamma P \Pi_{q_\pi}$

$[P]_{(s, a),s^\prime}=p(s^\prime|s,a)$
$\Pi_{s^\prime,(s^\prime,a^\prime)}=\pi(a^\prime|s^\prime)$

————————————

2.10

state value状态值和 return回报的关系：状态值是 agent 从该状态出发所能获得的回报的均值。

状态值和动作值的关系：一方面，状态值是该状态的 动作值的均值。另一方面，动作值依赖于 agent 在采取动作后可能过渡到的下一个状态的状态值。

$v_\pi(s)=\sum\limits_a\pi(a|s)\textcolor{blue}{q_\pi(s, a)}$
$q_\pi(s, a)=\sum\limits_rp(r|s, a)r+\gamma\sum\limits_{s^\prime}p(s^\prime|s, a)\textcolor{blue}{v_\pi(s^\prime)}$