Task02：马尔可夫决策及表格型方法 & Task03: 策略梯度和PPO算法

MickWang1942

已于 2022-08-25 18:50:11 修改

阅读量270

点赞数

分类专栏：强化学习文章标签：算法深度学习

于 2022-08-25 18:35:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwb19422012/article/details/126530097

版权

强化学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

从Task02开始，就进入到了强化学习的一些核心概念：

一、马尔可夫决策过程(MDP)：

强化学习的基础数据模型，就是马尔可夫链(MC)。
强化学习四元素（智能体（机器）、动作、状态、奖励）构成了一个数据流转过程：
```
 状态1 ->  动作1 -> 奖励1 -> 状态2 ->  动作2 -> 奖励2 .... -> 状态n ->  动作n -> 奖励n 
```
其中的“状态”流转所构成的就是一个马尔科夫链，如下图：

图片来自蘑菇书EasyRL

具体定义可以参考《统计学习方法》中的描述：

在马尔可夫链的基础上，加上一个奖励函数R，就可以由马尔可夫链/马尔可夫过程进一步扩展到马尔可夫奖励过程(Markov Reward Process, MRP)。

图片来自蘑菇书EasyRL

而在MRP的基础上，再加上一个决策（动作），就构成了马尔可夫决策过程(Markov Decision Process)。即：MDP实际上描述的是，由四元素（智能体（机器）、动作、状态、奖励）所构成的强化学习模型，是如何在与环境交互的过程中进行学习的。MDP同时也描述了整个模型的数据流转过程。

未完待续…

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Task02：马尔可夫决策及表格型方法 & Task03: 策略梯度和PPO算法

这篇文章融合了Task02和Task03的内容：（1）马尔科夫决策过程；（2）策略评估；（3）策略改进；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。