马尔可夫决策过程MDP

最新推荐文章于 2024-05-28 13:57:27 发布

千天

最新推荐文章于 2024-05-28 13:57:27 发布

阅读量257

点赞数

文章标签：机器学习 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61545964/article/details/129743364

版权

一、背景介绍

Random Variable 随机变量

Stochastic Process 随机过程

Markov Chain/Process 马尔可夫链/过程

State Space Model 状态空间模型

Markov Reward Process 马尔可夫奖励过程

Markov Decision Process 马尔可夫决策过程

状态集、动作集和奖励集

在 $\text{[math]}$ 状态下做出动作 $\text{[math]}$ 会得到奖励 $\text{[math]}$ ，有的书也会写成得到奖励 $\text{[math]}$ ，只是下标不同，没有实质区别，本文章内为遵循原视频讲解，统一使用 $\text{[math]}$ 。

二、动态特性

马尔可夫决策过程图解：

动态特性（MDP四个量中的P）

即在状态s下做出动作a，环境将状态转换为s'并得到奖励r的概率。

状态转移函数

与动态特性类似，不过不再关心奖励r（与奖励r没有关系了），奖励r已经通过累加或积分处理掉了。这里需要注意，奖励r也是一个随机变量，即从状态s下做出动作a，环境更新状态为s'，此时可能会得到奖励 $\text{[math]}$ ，也可能得到奖励 $\text{[math]}$ ，或者其他奖励。也就是说在相同状态下做出相同的动作并更新得到了相同的下一状态，得到的奖励也不一定相同，，因为奖励r是随机变量，是有概率的。当然，通常这个随机性不强，故没有特殊考虑过。

三、价值函数

策略Policy

折扣回报Discount Return

价值函数Value Function

这个其实是状态价值函数，跟王树森老师的叫法不同。

四、贝尔曼期望方程

$\text{[math]}$ 是状态价值函数， $\text{[math]}$ 是动作状态价值函数。 $\text{[math]}$ 表示状态到达了s，此时获得回报的期望值； $\text{[math]}$ 表示在状态s下做出动作a可以获得的回报的期望值。

从这里可以看出 $\text{[math]}$ 是 $\text{[math]}$ 的加权平均值。

下面给出 $\text{[math]}$ 和 $\text{[math]}$ 的关系：

上面两个红色字体的式子即贝尔曼期望方程（Bellman Expectation Equation）。

五、贝尔曼最优方程

最优状态价值函数与最优动作状态价值函数

原视频地址：【强化学习】马尔可夫决策过程【白板推导系列】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
马尔可夫决策过程MDP

【马尔可夫决策过程】学习笔记根据B站白板推导老师的课程进行学习，为方便快速查看知识点，记录下学习笔记。主要内容包括马尔可夫决策过程相关定义、贝尔曼期望方程和贝尔曼最优方程。
复制链接

扫一扫

千天 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

193万+: 周排名

139万+: 总排名

257: 访问

: 等级

11: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

马尔可夫决策过程MDP 257

最新评论

马尔可夫决策过程MDP
CSDN-Ada助手: 恭喜您写了一篇关于马尔可夫决策过程的博客，这是一个不错的开始！建议您在接下来的创作中，可以结合实际案例，更生动地展示MDP的应用场景和解决问题的方法，让读者更易于理解和接受。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。