贝尔曼方程推导[1]

赛文忆莱文

已于 2023-05-15 16:07:43 修改

阅读量118

点赞数

文章标签：算法机器学习概率论

于 2023-05-14 19:18:47 首次发布

本文链接：https://blog.csdn.net/weixin_45477628/article/details/130668429

版权

本文详细介绍了贝尔曼方程在深度强化学习中的应用，包括动作价值函数和状态价值函数的推导，以及在最优策略下的最大化价值。通过数学公式展示了在给定策略、奖励和状态转移函数下，如何计算单个动作或状态的期望回报，强调了在最优策略下的价值评估。

摘要由CSDN通过智能技术生成

贝尔曼方程推导[1]

前言
动作、状态、奖励序列
动作价值函数
最优策略函数下的最大动作价值函数
状态价值函数
最优策略函数下的最大状态价值函数
参考文献

前言

由于公式太长，写在一个文章里面看得云里雾里，所以分开写，本文中将直接使用推导好的动作价值函数与状态价值函数，关于如何推出来的表达式，请参考：深度强化学习总结

动作、状态、奖励序列

$s_t,a_t,r_{t}(s_t,a_t),s_{t+1},a_{t+1},r_{t+1}(s_{t+1},a_{t+1}),\cdots,s_{t+n},a_{t+n},t_{t+n}(s_{t+n},a_{t+n})$

动作价值函数

当我们采取某个动作以后，可能的轨迹序列有多条，如何评价这个动作的价值，不能只选取某一条轨迹的价值作为评价，而应该是选择所有轨迹的均值作为评价。所以我们
首先计算在初始动作和状态已知的情况下一种可能轨迹序列所带来的回报及对应的概率。我把这种单次特定序列下的回报函数记为：
$U(a_t|s_t,f_a,f_r,f_t)=[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^nr_{t+n}(s_{t+n},a_{t+n})]$

对应的概率为：
$P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})$

而某个动作的价值就是所有的可能轨迹序列所对应的回报的均值，所以需要求出所有可能的轨迹序列所对应的回报的期望：
$\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^nr_{t+n}(s_{t+n},a_{t+n})]*[P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})]$

因为是在一定状态下对于某个动作的期望回报，涉及的变量一共包括策略函数 $f_a$ ，奖励函数 $f_r$ ，转移函数 $f_t$ ，以及动作和状态。所以我们选择 $V(a_t|f_a,f_r,f_t,s_t)$ 来表示这个动作所对应的价值。
我用 $V(a_t|f_a,f_r,f_t,s_t)$ 表示对所有特定的序列求均值所得到的均值回报函数，也就是== $U$ 表示单次， $V$ 表示均值==：
$\begin{split} V(a_t|f_a,f_r,f_t,s_t)&=\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^nr_{t+n}(s_{t+n},a_{t+n})]*[P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})] \\&=\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}U(a_t|s_t,f_a,f_r,f_t)*P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n}) \end{split}$

最优策略函数下的最大动作价值函数

$\begin{split} V(a_t|f_a^*,f_r,f_t,s_t)&=\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^nr_{t+n}(s_{t+n},a_{t+n})]*[P(s_{t+1}|s_t,a_t)*P^*(a_{t+1}|s_{t+1})*\cdots*P^*(a_{t+n}|s_{t+n})] \\&=\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}U(a_t|s_t,f_a,f_r,f_t)*[P(s_{t+1}|s_t,a_t)*P^*(a_{t+1}|s_{t+1})*\cdots*P^*(a_{t+n}|s_{t+n})] \end{split}$

状态价值函数

状态价值函数也是同样，同一个状态可能有多条轨迹，我们评价状态的价值不能只选择一条路径上的价值而应该考虑所有路径上的价值，所以就是所有路径上价值的期望价值。
首先求出在初始状态给定的情况下一条可能的轨迹序列所对应的回报与概率：
$U(s_t|f_a,f_r,f_t)=[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^n{r_{t+n}(s_{t+n},a_{t+n})}]$

以上就是在给定策略函数，奖励函数，状态转移函数的情况下一条特定序列的回报函数。

对应的概率为：
$[P(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})]$

然后求出所有可能的轨迹序列所对应的回报与概率的加权和：
$\sum_{a_t}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^n{r_{t+n}(s_{t+n},a_{t+n})}]*[P(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})]$

同样，我们也分析一下这个值与什么有关，与策略函数 $f_a$ ，奖励函数 $f_r$ ，转移函数 $f_t$ ，初始状态有关。用 $V(s_t|f_a,f_r,f_t)$ 来表示它。也就是：
$\begin{split} V(s_t|f_a,f_r,f_t)&=\sum_{a_t}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^n{r_{t+n}(s_{t+n},a_{t+n})}]*[P(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})] \\&=\sum_{a_t}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}U(s_t|f_a,f_r,f_t)*[P(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P(a_{t+1}|s_{t+1})*\cdots*P(a_{t+n}|s_{t+n})] \end{split}$

也就是状态的价值函数也是所有轨迹价值函数的均值，最优策略影响的只不过是各条轨迹出现的概率也就是各种回报出现的概率。

最优策略函数下的最大状态价值函数

$\begin{split} V(s_t|f_a^*,f_r,f_t)&=\sum_{a_t}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}[r_t(s_t,a_t)+\gamma{r_{t+1}(s_{t+1},a_{t+1})}+\cdots+\gamma^n{r_{t+n}(s_{t+n},a_{t+n})}]*[P^*(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P^*(a_{t+1}|s_{t+1})*\cdots*P^*(a_{t+n}|s_{t+n})] \\&=\sum_{a_t}\sum_{a_{t+1}}\cdots\sum_{a_{t+n}}\sum_{s_{t+1}}\cdots\sum_{s_{t+n}}U(s_t|f_a,f_r,f_t)*[P^*(a_t|s_t)*P(s_{t+1}|s_t,a_t)*P^*(a_{t+1}|s_{t+1})*\cdots*P^*(a_{t+n}|s_{t+n})] \end{split}$

参考文献

深度强化学习（张志华，王树森）

赛文忆莱文

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
贝尔曼方程推导[1]

贝尔曼方程推导前言动作、状态、奖励序列动作价值函数最优策略函数下的最大动作价值函数状态价值函数最优策略函数下的最大状态价值函数贝尔曼方程总结前言由于公式太长，写在一个文章里面看得云里雾里，所以分开写，本文中将直接使用推导好的动作价值函数与状态价值函数，关于如何推出来的表达式，请参考：深度强化学习总结动作、状态、奖励序列st,at,rt(st,at),st+1,at+1,rt+1(st+1,at+1),⋯ ,st+n,at+n,tt+n(st+n,at+n)s_t,a_t,r_{t}(s_t,a_t)
复制链接

扫一扫