贝尔曼方程详尽推导（无跳步|带图）

最新推荐文章于 2024-05-14 15:56:19 发布

我说我糊涂

最新推荐文章于 2024-05-14 15:56:19 发布

阅读量3.8k

点赞数 19

分类专栏：机器学习基础文章标签：马尔科夫决策过程 mdp 贝尔曼方程

本文链接：https://blog.csdn.net/williamchin/article/details/120705837

版权

贝尔曼方程推导（无跳步）

这两天学习MDP，对于贝尔曼方程有很大的困惑，而且找了很多资料都没有详尽的推导，我这里把详尽推导写出来，希望能帮到正在学习的同学们。
$\begin{aligned} V_{\pi}(s) &= E[G_t|S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|\pmb{S_t=s}] \\ &= E[R_{t+1}+\gamma V_{\pi}(s')|s] \end{aligned}$
但是 $V_{\pi}(s')=E[G_{t+1}|\pmb{S_{t+1}=s'}]$ ，上面这个最后一步到底是怎么出现的？？
下面我在推导这个贝尔曼方程时会顺带解答这个疑惑。
#------------------------------------------------------------------------------------------------#
值函数给出了从状态 $s$ 出发，遵循策略 $\pi$ 会得到的期望回报，用于评估一个策略的好坏。贝尔曼方程给出了值函数的计算方法（迭代/递归）。
从状态值函数的表达式可以发现， $t$ 时刻计算的值函数必然和 $t + 1$ 时刻的值函数存在关系，因为 $G_t$ 必然包含着 $G_{t+1}$ ，所以应该是可以找到前后时刻值函数的递归关系的。就像隐马尔科夫模型中的前向变量、后向变量，前后时刻存在递归关系。
值函数前后时刻之间的递归关系得到的就是贝尔曼方程了：
状态值函数：

最低0.47元/天解锁文章

我说我糊涂

关注

19
点赞
踩
46

收藏

觉得还不错? 一键收藏
4
评论
贝尔曼方程详尽推导（无跳步|带图）

贝尔曼方程推导（无跳步）这两天学习MDP，对于贝尔曼方程有很大的困惑，而且找了很多资料都没有详尽的推导，我这里把详尽推导写出来，希望能帮到正在学习的同学们。Vπ(s)=E[Gt∣St=s]=E[Rt+1+γGt+1∣St=s]=E[Rt+1+γVπ(s′)∣s]\begin{aligned}V_{\pi}(s) &= E[G_t|S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|\pmb{S_t=s}] \\ &= E
复制链接

扫一扫