马尔科夫决策过程

最新推荐文章于 2024-04-02 10:57:22 发布

今天努力工作，明天退休养老

最新推荐文章于 2024-04-02 10:57:22 发布

阅读量207

点赞数 1

分类专栏： NLP碎碎念文章标签：动态规划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43905108/article/details/125880474

版权

NLP碎碎念专栏收录该内容

2 篇文章 0 订阅

订阅专栏

马尔科夫过程/链：

满足“未来只与现在有关，与过去无关”的随机过程

MRP：

=马尔科夫过程+奖励+折扣因子

计算方法：

Bellman矩阵（O(n^3)，适合小规模）
动态规划（适合白盒但现实条件下是白盒很少）
蒙特卡洛（基于采样和统计）
时序差分

MDP:

=MRP+“刺激”（对环境而言，刺激就是agent的action）所以MDP就是环境本身。

state-value function & action-value function

各自的公式和转化
上述公式很重要❗描述了现在的状态/动作价值函数和未来的关系，以及之间的转化关系。

哦~好像刷新了历史最短篇幅记录，不过 I don’t care，打算在CSDN更新有关笔记，代码放在上github上，明天更的是基于DP的策略迭代和价值迭代（悬崖寻路和冰湖环境）

感觉从头开始快不得，去年的组会至今也有半年了吧，重拾之后再理解确实有些新的体会。打算将theory和codes一起吃透，毕竟最终公式还是要转换为代码的，“纸上得来终觉浅，绝知此事要躬行”嘛。

从头编写环境、动作，然后更新环境…听起来也不是那么轻松哦~

今天努力工作，明天退休养老

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
马尔科夫决策过程

定义和公式
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。