学习记录1——马尔可夫

St-sun

已于 2022-03-17 22:52:18 修改

阅读量559

点赞数

分类专栏：学习记录文章标签：学习

于 2022-03-17 22:41:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44622686/article/details/123562875

版权

学习记录专栏收录该内容

50 篇文章 1 订阅

订阅专栏

学习记录：

参考：

https://zhuanlan.zhihu.com/p/273449285
https://www.codetd.com/article/4361820

马尔可夫决策过程（Markov Decision Process，MDP）：描述离散时间的随机控制过程，其结果是部分随机部分可控的，是在复杂环境下对AI代理（Agent）建模的经典方法。

1 马尔可夫属性

下个状态取决于当前状态（不考虑高阶马尔可夫？），不受之前任何状态影响。

2 马尔可夫过程/马尔可夫链

马尔可夫链是一个无记忆的随机过程（？）

元组（tuple）表示：<S, P>

S：有限数量的状态集，P：各状态间的转移矩阵（Transition Matrix）

$S^{'}$ ：下一状态，

$S$ ：当前状态 $\left[ \begin{matrix} x_{11}&……&x_{1n}\\ x_{21}&……&x_{2n}\\ \vdots&……&\vdots\\ x_{n1} &…… &x_ {nn}\\ \end{matrix} \right]$

David Silver课程例子，学生从状态Class 1到状态Class 2的概率是0.5，对应右侧矩阵第1行第2列（C1,C2）的值0.5，学生在Facebook（FB）不能自拔，状态转移概率0.9，对应矩阵（FB，FB）位置为0.9。注意到：每一行所有数值相加等于1。
在这里插入图片描述

3 马尔可夫回报过程 MRP

MRP是带有价值的马尔科夫链（？），<S, P, R, Y>表示，对比马尔可夫链，R是回归函数，Y是折扣系数。

回报函数R返回一个标量（实数）。其表示：假设目前状态是 $\mathbf{S}_t$ ，仅考虑下一状态 $\mathbf{S}_{t+1}$ 能获得多少回报 $\mathbf{R}_s = E[\mathbf{R}_{t+1}|\mathbf{S}_t=s]$ 。

Y∈[0, 1]，Y=0表示只看眼前（？），Y=1表示当前和长远同等重要，调节Y控制对长远的重视程度。

收益：总的长期收益之和（这是人们关注点）

$\mathbf{G}_t$ ：从t时开始，未来总折扣的回报之和，

$\mathbf{G}t = \mathbf{R}{t+1}+ \mathbf{YR}{t+2}+\mathbf{Y}^{2\mathbf{R}_{t+3}+……=\sum}{∞}{k=0}\mathbf{Y}^k\mathbf{R}_{t+k+1} $

强化学习目标：最大化长期总收益。

价值函数： $v (s)$ 返回状态s的长期价值，就是 $\mathbf{G}_t$ 的数学期望， $E[\mathbf{G}_t|s=\mathbf{S}_t]$

4 马尔可夫决策过程 MDP

MDP是带有决策的MRP，<S, A,P, R, Y>，A为动作集。

策略：定义了从状态到动作的映射。

MDP是带有决策的MRP，<S, A,P, R, Y>，A为动作集。

策略：定义了从状态到动作的映射。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
学习记录1——马尔可夫

学习记录：参考：https://zhuanlan.zhihu.com/p/273449285https://www.codetd.com/article/4361820马尔可夫决策过程（Markov Decision Process，MDP）：描述离散时间的随机控制过程，其结果是部分随机部分可控的，是在复杂环境下对AI代理（Agent）建模的经典方法。1 马尔可夫属性下个状态取决于当前状态（不考虑高阶马尔可夫？），不受之前任何状态影响。2 马尔可夫过程/马尔可夫链马尔可夫链是一个无记忆的随机
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

St-sun 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。