强化学习原理python篇02——贝尔曼公式推导和求解

WuRobb

已于 2024-01-07 15:02:17 修改

阅读量1.1k

点赞数 20

分类专栏：强化学习文章标签： python 开发语言

于 2024-01-05 17:58:50 首次发布

本文链接：https://blog.csdn.net/wurobb/article/details/135393737

版权

强化学习专栏收录该内容

10 篇文章 4 订阅

订阅专栏

强化学习原理python篇02——贝尔曼公式

概念
- bootstrapping（自举法）
- state value
贝尔曼公式（Bellman Equation）
贝尔曼公式以及python实现
- 解法1——解析解
- 解法2——迭代法
atcion value
Ref

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning State Values and Bellman Equation章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

概念

以bootstrapping来介绍状态值

bootstrapping（自举法）

在这里插入图片描述
让v代表从s1，…，s4的回报
$v_1 = r_1 + γ_{r_2} + γ^2_{r_3} + ... =r_1+\gamma v_2;\\ v_2 = r_2 + γ_{r_2} + γ^2_{r_3} + ... =r_2+\gamma v_3;\\ v_3 = r_3 + γ_{r_2} + γ^2_{r_3} + ...=r_3+\gamma v_4 ;\\ v_4 = r_4 + γ_{r_2} + γ^2_{r_3} + ...=r_4+\gamma v_1 ;\\$
用矩阵表示为

$\left [\begin{matrix}v_1\\v_2\\v_3\\ v_4 \end{matrix} \right ] = \left [\begin{matrix}r_1\\r_2\\r_3\\ r_4 \end{matrix} \right ]+\gamma \left [\begin{matrix}0,1,0,0\\0,0,1,0\\0,0,0,1\\1,0,0,0 \end{matrix} \right ]\left [\begin{matrix}v_1\\v_2\\v_3\\ v_4 \end{matrix} \right ]$
写作
$\pmb v = \pmb r + \pmb{γP} v\\ \pmb v =(1- \pmb{γP})^{-1} \pmb{r}$

state value

$S_t \stackrel{At} {\rightarrow}S_{t+1}; R_{t+1}$
表示从状态st做出动作at到 $s_{t+1}$ ，并且获得鼓励 $R_{t+1}$ ，从t开始，可以获得一个trajectory
$S_t \stackrel{At} {\rightarrow}S_{t+1}; R_{t+1}\stackrel{A_{t+1}} {\rightarrow}S_{t+2}; R_{t+2}\stackrel{A_{t+2}} {\rightarrow}S_{t+3}; R_{t+3}...$

discounted return 为
$G_t = R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+... \\ \gamma \in (0; 1)$

state value 被定义为
$v_\pi(s)=E[G_t|S_t=s]$

贝尔曼公式（Bellman Equation）

首先，t 时候的trajectory的discount reward为
$\begin{align*}G_t =& R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+... \\ =&R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+...)\\ =&R_{t+1}+\gamma G_{t+1} \end {align*}$

则该状态值为
$\begin{align*} v_\pi(s)=&E[G_t|S_t=s] \\ =&E[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ =&E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s] \end{align*}$
根据全期望公式（the law of total expectation） $E (E (Y ∣ X)) = E (Y)$

$\begin{align*} E[R_{t+1}|S_t=s] =& \int_{r\in R} rf_{R|S}(r|S_t=s) dr\\ =& \int_{r\in R} r\frac{f_{R,S}(r,S_t=s)}{f_S(S_t=s)}dr\\ =& \int_{r\in R} r\frac{f_{R,S}(r,S_t=s)}{f_{S,A}(S_t=s,A_t=a)}·\frac{f_{S,A}(S_t=s,A_t=a)}{f_S(S_t=s)}dr\\ =& \int_{r\in R} r\frac{f_{R,S}(r,S_t=s)}{f_{S,A}(S_t=s,A_t=a)}·f_{A|S}(a|S_t=s)dr\\ =& \int_{r\in R} r \frac{ \int_{a\in A} f_{R,S,A}(r,a,S_t=s) }{ f_{S,A}(S_t=s,A_t=a) }·f_{A|S}(a|S_t=s)dr\\ =& \int_{r\in R} r \int_{a\in A} f_{R|S,A}(r|a,S_t=s) ·f_{A|S}(a|S_t=s)dadr\\ =& \int_{a\in A}\int_{r\in R} r f_{R_{t+1}|S,A}(r|a,S_t=s) ·\pi(a|s)dadr\\ = & \int_{a\in A}\pi(a|s)E(R_{t+1}|S=s,A=a)da \end{align*}$
同理
$\begin{align*} E[G_{t+1}|S_t = s]=&\int_{s'\in S}p(s'|s)E[G_{t+1}|S_t = s,S_{t+1}=s']ds'\\ =&\int_{s'\in S}p(s'|s)E[G_{t+1}|S_{t+1}=s'] ds'\ (markov\ property)\\ =&\int_{s'\in S}p(s'|s)v_\pi(s')ds'\\ =&\int_{s'\in S}v_\pi(s')\int_{a\in A}p(s'|s,a)p(a|s)dads'\\ =&\int_{s'\in S}v_\pi(s')\int_{a\in A}p(s'|s,a)\pi(a|s)dads' \end{align*}$
因此，贝尔曼公式如下
$\begin{align*} v_\pi(s)=&E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s] \\ =&\int_{a\in A}\pi(a|s)E(R_{t+1}|S=s,A=a)+\gamma\int_{s'\in S}v_\pi(s')\int_{a\in A}p(s'|s,a)\pi(a|s)\\ =& \int_{a\in A}\pi(a|s)\int_{r\in R}rf(r|s,a)drda+\gamma\int_{a\in A}f(s'|s,a)\int_{s'\in S}v_\pi(s')\pi(a|s)ds'da\\ =& \int_{a\in A}\int_{r\in R}\pi(a|s)rf(r|s,a)drda+\gamma\int_{a\in A}\int_{s'\in S}f(s'|s,a)v_\pi(s')\pi(a|s)ds'da\\ =&\int_{a\in A} \pi(a|s)da[\int_{r\in R}rf(r|s,a)dr+\gamma \int_{s'\in S}f(s'|s,a)v_\pi(s')ds']\\ =&\int_{a\in A} \pi(a|s)da[\int_{r\in R}\int_{s'\in S}rf(r,s'|s,a)dr+\gamma \int_{s'\in S}\int_{r\in R}f(s',r|s,a)v_\pi(s')ds'dr]\\ =&\int_{a\in A} \pi(a|s)da[\int_{r\in R}\int_{s'\in S}rf(r,s'|s,a)+\gamma f(s',r|s,a)v_\pi(s')ds'dr]\\ =&\int_{a\in A} \pi(a|s)da[\int_{r\in R}\int_{s'\in S}f(r,s'|s,a)[r+\gamma \pi(s') ]ds'dr] \end{align*}$

贝尔曼公式以及python实现

$r_\pi(s)代表该状态得分的期望值\\ r_\pi(s)=\int_{a\in A}\pi(a|s)\int_{r\in R}rf(r|s,a)drda\\ p_\pi(s'|s)代表s转移到s‘的概率值\\ p_\pi(s'|s)=\int_{a\in A}f(s'|s,a)\pi(a|s)$
$\begin{align*} v_\pi(s) =& \int_{a\in A}\pi(a|s)\int_{r\in R}rf(r|s,a)drda+\gamma\int_{a\in A}f(s'|s,a)\int_{s'\in S}v_\pi(s')\pi(a|s)ds'da\\ =& r_π(s_i)+\gamma \int_{s'\in S}v_\pi(s') p_\pi(s'|s)ds' \end{align*}$
在离散状态下，该式子表现为
$\begin{align*} v_\pi(s) =& \int_{a\in A}\pi(a|s)\int_{r\in R}rf(r|s,a)drda+\gamma\int_{a\in A}f(s'|s,a)\int_{s'\in S}v_\pi(s')\pi(a|s)ds'da\\ v_\pi(s_i)=& r_π(s_i)+\gamma \sum_{s_j\in S}v_\pi(s_j) p_\pi(s_j|s_i) \end{align*}$
用矩阵形式表现为
$\pmb v = \pmb r + \pmb{γP} v\\ \pmb v =(1- \pmb{γP})^{-1} \pmb{r}$
在这里插入图片描述
考虑以下情况

解法1——解析解

求解逆矩阵就可以获得该解

import numpy as np

## 贝尔曼公式状态值求解
def closed_form_solution(R,P,gamma):

    # 获取行号
    n = R.shape[0]
    # 生成单位阵
    I= np.identity(n)
    matrix_inverse = np.linalg.inv(I-gamma*P)

    # 矩阵点乘
    return matrix_inverse.dot(R)


R = np.array([(0.5*0+0.5*(-1)),1.,1.,1.]).reshape(-1,1)
P = np.array([
    [0,0.5,0.5,0],
    [0,0,0,1],
    [0,0,0,1],
    [0,0,0,1],
])

closed_form_solution(R,P,0.9)

输出：

array([[ 8.5],
       [10. ],
       [10. ],
       [10. ]])

解法2——迭代法

证明
在这里插入图片描述

def iterative_solution(n_iter, R, P, gamma):
    # n_iter 为迭代次数
    # 初始化  vπ
    n = R.shape[0]
    v = np.random.rand(n, 1)
    for iter in range(n_iter):
        v = R + (gamma * P).dot(v)
    return v


iterative_solution(100, R, P, 0.9)

输出：

array([[8.49974039],
       [9.99974039],
       [9.99974039],
       [9.99974039]])

atcion value

从a状态出发的行动所带来的回报的期望，数学符号表示为
$q_\pi(s,a)=E[G_t|S_t=s,A_t=a]$

action value 和 state value的联系，由全期望公式
$\begin{align*} E_{G_t}[G_t|S_t=s] =& E_{A_t|S_t}(E_{G_t}[G_t|(S_t=s,A_t|S_t=a)] )\\ =&\int_{a\in A}E_{G_t}[G_t|S_t=s]·\pi(a|s)da \end{align*}$
因此
$\begin{align*} v_\pi(s)=&\int_{a\in A}\pi(a|s)q_\pi(s,a)da \end{align*}$
代表的是state value是action value的期望

因此将贝尔曼公式代入，则
$q_\pi(s,a)= r_π(s_i|a)+\gamma \int_{s_j\in S}v_\pi(s_j) p_\pi(s_j|s_i,a)ds\\ v_\pi(s) = \int_{a\in A}\pi(a|s)[r_π(s_i|a)+\gamma \int_{s_j\in S}v_\pi(s_j) p_\pi(s_j|s_i,a)ds]da$

Ref

Mathematical Foundations of Reinforcement Learning，Shiyu Zhao

WuRobb

关注

20
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
强化学习原理python篇02——贝尔曼公式推导和求解

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] State Values and Bellman Equation章节，请各位结合阅读，本合集只专注于数学概念的代码实现。
复制链接

扫一扫

专栏目录