学习记录1——马尔可夫

学习记录:

参考:

https://zhuanlan.zhihu.com/p/273449285
https://www.codetd.com/article/4361820

马尔可夫决策过程(Markov Decision Process,MDP):描述离散时间的随机控制过程,其结果是部分随机部分可控的,是在复杂环境下对AI代理(Agent)建模的经典方法。

1 马尔可夫属性

下个状态取决于当前状态(不考虑高阶马尔可夫?),不受之前任何状态影响。

2 马尔可夫过程/马尔可夫链

马尔可夫链是一个无记忆的随机过程(?)

元组(tuple)表示:<S, P>​

S:有限数量的状态集,P:各状态间的转移矩阵(Transition Matrix)

S ′ S' S:下一状态,

S S S:当前状态 [ x 11 … … x 1 n x 21 … … x 2 n ⋮ … … ⋮ x n 1 … … x n n ] \left[ \begin{matrix} x_{11}&……&x_{1n}\\ x_{21}&……&x_{2n}\\ \vdots&……&\vdots\\ x_{n1} &…… &x_ {nn}\\ \end{matrix} \right] x11x21xn1x1nx2nxnn

David Silver课程例子,学生从状态Class 1到状态Class 2的概率是0.5,对应右侧矩阵第1行第2列(C1,C2)的值0.5,学生在Facebook(FB)不能自拔,状态转移概率0.9,对应矩阵(FB,FB)位置为0.9。注意到:每一行所有数值相加等于1。
在这里插入图片描述

3 马尔可夫回报过程 MRP

MRP是带有价值的马尔科夫链(?),<S, P, R, Y>表示,对比马尔可夫链,R是回归函数,Y是折扣系数。

回报函数R返回一个标量(实数)。其表示:假设目前状态是 S t \mathbf{S}_t St,仅考虑下一状态 S t + 1 \mathbf{S}_{t+1} St+1能获得多少回报 R s = E [ R t + 1 ∣ S t = s ] \mathbf{R}_s = E[\mathbf{R}_{t+1}|\mathbf{S}_t=s] Rs=E[Rt+1St=s]

Y∈[0, 1],Y=0表示只看眼前(?),Y=1表示当前和长远同等重要,调节Y控制对长远的重视程度。

收益:总的长期收益之和(这是人们关注点)

G t \mathbf{G}_t Gt:从t时开始,未来总折扣的回报之和,

$\mathbf{G}t = \mathbf{R}{t+1}+ \mathbf{YR}{t+2}+\mathbf{Y}2\mathbf{R}_{t+3}+……=\sum{∞}{k=0}\mathbf{Y}^k\mathbf{R}_{t+k+1} $

强化学习目标:最大化长期总收益。

价值函数: v ( s ) v(s) v(s)返回状态s的长期价值,就是 G t \mathbf{G}_t Gt的数学期望, v ( s ) = E [ G t ∣ s = S t ] v(s) = E[\mathbf{G}_t|s=\mathbf{S}_t] v(s)=E[Gts=St]

4 马尔可夫决策过程 MDP

MDP是带有决策的MRP,<S, A,P, R, Y>,A为动作集。

策略:定义了从状态到动作的映射。

MDP是带有决策的MRP,<S, A,P, R, Y>,A为动作集。

策略:定义了从状态到动作的映射。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

St-sun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值