深度强化学习(二)

总是摸鱼的猫

已于 2024-03-12 17:29:24 修改

阅读量880

点赞数 19

分类专栏：深度强化学习· 文章标签：数学建模算法

于 2024-03-10 21:41:03 首次发布

本文链接：https://blog.csdn.net/weixin_54255111/article/details/136609798

版权

深度强化学习· 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

深度强化学习(二)(贝尔曼方程)

一.贝尔曼方程（将 $Q_\pi$ 表示成 $Q_\pi$ ）

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right] .\tag{1.1}$

proof:令 $\mathcal{S}_{t+1:}=\left\{S_{t+1}, S_{t+2}, \cdots\right\}$ , $\mathcal{A}_{t+1:}=\left\{A_{t+1}, A_{t+2}, \cdots\right\}$ ,由 $U_t$ 的定义知 $U_t=R_t+\gamma \cdot U_{t+1}$
$\begin{aligned} Q_\pi\left(s_t, a_t\right)&=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_t \mid S_t=s_t, A_t=a_t\right]\\ &=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[R_t+\gamma \cdot U_{t+1} \mid S_t=s_t, A_t=a_t\right]\\ &= \underbrace{\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[R_t|S_t=s_t,A_t=a_t \right]}_{(1)}+\gamma\cdot\underbrace{ \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+1} \mid S_t=s_t, A_t=a_t\right]}_{(2)}\\ \end{aligned}$
其中, $t$ 时刻的回报 $R_{t}$ 只与 $t + 1$ 时刻的状态 $S_{t+1}$ 有关，而 $S_{t+1}$ 只与 $S_t,A_t$ 有关,则
$\begin{aligned} (1)&=\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[R_t|S_t=s_t,A_t=a_t \right]\\ &= \Bbb E_{S_{t+1}}\left [R_t|S_t=s_t,A_t=a_t\right]\\ &= \Bbb E_{S_{t+1},A_{t+1}}\left [R_t|S_t=s_t,A_t=a_t\right] \end{aligned}$
对 $(2)$ 中的式子变形可得
$\begin{aligned} (2)&= \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+1} \mid S_t=s_t, A_t=a_t\right]\\ &= \Bbb E_{S_{t+1},A_{t+1},\cal S _{t+2},\cal A _{t+2}}\left[U_{t+1}|S_t=s_t,A_t=a_t \right]\\ &= \Bbb E_{S_{t+1},A_{t+1}}\left[\Bbb E_{\cal S_{t+2},\cal A_{t+2}}\left[U_{t+1}|S_{t+1},A_{t+1},S_t=s_t,A_t=a_t\right]|S_t=s_t,A_t=a_t \right]利用马尔可夫性\\ &=\Bbb E_{S_{t+1},A_{t+1}}\left[\Bbb E_{\cal S_{t+2},\cal A_{t+2}}\left[U_{t+1}|S_{t+1},A_{t+1}\right]|S_t=s_t,A_t=a_t \right] \\ &=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right] \end{aligned}$
由此证毕。

二.贝尔曼方程 $\text { (将 } Q_\pi \text { 表示成 } V_\pi \text { ) }$

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]\tag{1.2}$

proof: $\text { 由于 } V_\pi\left(S_{t+1}\right)=\mathbb{E}_{A_{t+1}\sim \pi\left(\cdot \mid S_{t+1}\right)}\left[Q\left(S_{t+1}, A_{t+1}\right)\right]=\Bbb E_{A_{t+1}}\left[ Q_{\pi}(S_{t+1},A_{t+1})|S_{t+1}\right]$
$\begin{aligned} (2)= &\mathbb{E}_{S_{t+1}, A_{t+1}}\left[Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]\\ =&\Bbb E_{S_{t+1}}\left[\Bbb E_{A_{t+1}}\left[ Q_{\pi}(S_{t+1},A_{t+1})|S_{t+1}\right]|S_t=s_t,A_t=a_t\right]\\ =&\Bbb E_{S_{t+1}}\left[V_\pi\left(S_{t+1}\right)|S_t=s_t,A_t=a_t\right] \end{aligned}$
证毕

三.贝尔曼方程(将 $V_\pi$ 表示成 $V_\pi$ )

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$V_\pi\left(s_t\right)=\mathbb{E}_{A_t, S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t\right]\tag{1.3}$

proof:
$\begin{aligned} V_\pi\left(s_t\right)&=\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[U_t \mid S_t=s_t\right] \\ & =\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}},\left[R_t+\gamma U_{t+1}|S_t=s_t\right] \\ & =\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[R_t \mid S_t=s_t\right] +\gamma \Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[U_{t+1} \mid S_t=s_t\right] \\ & =\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right] +\gamma \Bbb E_{S_{t+1}}\left[\Bbb E_{A_t \cal A_{t+1}, \cal S_{t+2}}\left[U_{t+1} \mid S_{t+1},S_t=s_t\right]\mid S_{t}=s_t\right]\qquad \\ & =\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{S_{t+1}}\left[ E_{ \cal A_{t+1}, \cal S_{t+2}}\left[U_{t+1} \mid S_{t+1}\right]\mid S_{t}=s_t\right]马尔可夫性\\ & = \Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]\\ &=\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{A_t, S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]马尔可夫性\\ \textbf{证毕} \end{aligned}$
或者直接利用式 $1.2$ ，两边同时对 $A_t\sim \pi(\cdot|s_t)$ 求期望得
$\begin{aligned} \Bbb E_{A_t\sim \pi(\cdot|s_t)}[Q_\pi\left(s_t, A_t\right)]&=\Bbb E_{A_t\sim \pi(\cdot|s_t)}[\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t,A_t\right]]\\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \Updownarrow \\ \Bbb E_{A_t}[Q_\pi\left(S_t, A_t\right)\mid S_t=s_t]&=\Bbb E_{A_t}[\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t,A_t\right]\mid S_t=s_t]\\ &=\mathbb{E}_{S_{t+1},A_{t}}[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t] \end{aligned}$

利用式 $1.3$ ，进一步写出显示表达式可得
$\begin{aligned} V_{\pi}(s_t)&=\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{A_t, S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]\\ &= \Bbb E_{A_t}[\Bbb E_{S_{t+1}}[R_t\mid A_t,S_t=s_t ]\mid S_t=s_t] +\gamma \Bbb E_{A_t}\left[\Bbb E_{S_{t+1}}\left[V_{\pi(S_{t+1})}\mid A_t,S_t=s_t\right]\mid S_t=s_t \right]\\ & =\sum_{A_t}\pi(a_t\mid s_{t})\Bbb E_{S_{t+1}}[R_t\mid A_t ,S_t=s_t]+\gamma \sum_{A_t}\pi(a_t\mid s_t)\Bbb E_{S_{t+1}}\left[V_{\pi(S_{t+1})}\mid A_t,S_t=s_t\right] \\ &=\sum_{A_t}\pi(a_t\mid s_{t})\sum_{S_{t+1}}r\cdot p(s_{t+1}\mid s_t,a_t)+\gamma \sum_{A_t}\pi(a_t\mid s_t)\sum_{S_{t+1}}V_{\pi}(s_{t+1})\cdot p(s_{t+1}\mid s_t,a_t) \end{aligned}$
其中 $r=r(s_t,s_{t+1},a_t)$

四.最优贝尔曼方程

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}\left[R_t+\gamma \cdot \max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right) \mid S_t=s_t, A_t=a_t\right] \tag{1.4}$

由贝尔曼方程可知
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_{\star}\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]$
因为动作 $A_{t+1}=\operatorname{argmax}_A Q_{\star}\left(S_{t+1}, A\right)$ 是状态 $S_{t+1}$ 的确定性函数, 所以
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot \max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right) \mid S_t=s_t, A_t=a_t\right]$

五.多步目标下的贝尔曼方程

设 $R_k$ 是 $S_k 、 A_k 、 S_{k+1}$ 的函数, $\forall k=1, \cdots, n$ 。那么
$\underbrace{Q_\pi\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1}, A_{t+1}, \cdots, S_{t+m}, A_{t+m}}[\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m \cdot \underbrace{Q_\pi\left(S_{t+m}, A_{t+m}\right)}_{U_{t+m} \text { 的期望 }} \mid S_t=s_t, A_t=a_t] .$

proof:设一局游戏的长度为 $n$ 。根据定义, $t$ 时刻的回报 $U_t$ 是 $t$ 时刻之后的所有奖励的加权和:
$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdots+\gamma^{n-t} R_n .$

同理, $t + m$ 时刻的回报可以写成:
$U_{t+m}=R_{t+m}+\gamma R_{t+m+1}+\gamma^2 R_{t+m+2}+\cdots+\gamma^{n-t-m} R_n .$

下面我们推导两个回报的关系。把 $U_t$ 写成:
$\begin{aligned} U_t & =\left(R_t+\gamma R_{t+1}+\cdots+\gamma^{m-1} R_{t+m-1}\right)+\left(\gamma^m R_{t+m}+\cdots+\gamma^{n-t} R_n\right) \\ & =\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m \underbrace{\left(R_{t+m}+\gamma R_{t+m+1}+\cdots+\gamma^{n-t-m} R_n\right)}_{\text {等于 } U_{t+m}} . \end{aligned}$

因此, 回报可以写成这种形式: $U_t=\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m U_{t+m} .$ 则
$\begin{aligned} Q_\pi\left(s_t, a_t\right)&=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_t \mid S_t=s_t, A_t=a_t\right]\\ &=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m U_{t+m} \mid S_t=s_t, A_t=a_t\right]\\ &= \underbrace{\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[\sum_{i=0}^{m-1} \gamma^i R_{t+i}|S_t=s_t,A_t=a_t \right]}_{(1)}+\gamma^{m}\cdot\underbrace{ \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+m} \mid S_t=s_t, A_t=a_t\right]}_{(2)} \end{aligned}$

$\begin{aligned} \text{其中(1)}&=\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[\sum_{i=0}^{m-1} \gamma^i R_{t+i}|S_t=s_t,A_t=a_t \right]\\ &=\Bbb E_{S_{t+1},\cdots,S_{t+m},A_{t+1},\cdots,A_{t+m-1}}\left[\sum_{i=0}^{m-1} \gamma^i R_{t+i}|S_t=s_t,A_t=a_t \right]\text{最简形式，其他都与}R_{t},\cdots,R_{t+m-1}无关\\ &=\Bbb E_{S_{t+1},\cdots,S_{t+m},A_{t+1},\cdots,A_{t+m}}\left[\sum_{i=0}^{m-1} \gamma^i R_{t+i}|S_t=s_t,A_t=a_t \right] \end{aligned}$

$\begin{aligned} \text{其中(2)}&= \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+m} \mid S_t=s_t, A_t=a_t\right]\\ &=\Bbb E_{S_{t+1},A_{t+1},\cdots,S_{t+m},A_{t+m},\cal S_{t+m+1},\cal A_{t+m+1}}\left[U_{t+m} \mid S_t=s_t, A_t=a_t\right]\\ &=\Bbb E_{S_{t+1},A_{t+1},\cdots,S_{t+m},A_{t+m}}[\Bbb E_{\cal S_{t+m+1},\cal A_{t+m+1}}[U_{t+m}\mid S_{t+1},A_{t+1},\cdots,S_{t+m},A_{t+m},S_t=s_t, A_t=a_t]\mid S_t=s_t, A_t=a_t]\\ &=\Bbb E_{S_{t+1},A_{t+1},\cdots,S_{t+m},A_{t+m}}[\Bbb E_{\cal S_{t+m+1},\cal A_{t+m+1}}[U_{t+m}\mid S_{t+m},A_{t+m}]\mid S_t=s_t, A_t=a_t]\\ &=\Bbb E_{S_{t+1},A_{t+1},\cdots,S_{t+m},A_{t+m}}[Q_{\pi}(S_{t+m},A_{t+m})\mid S_t=s_t,A_t=a_t] \end{aligned}$