深度强化学习——第二章马尔可夫决策过程 (MDP)

最新推荐文章于 2020-11-29 12:22:46 发布

Hogwarts扫地老太太

最新推荐文章于 2020-11-29 12:22:46 发布

阅读量262

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45549370/article/details/109250383

版权

深度强化学习——第二章马尔可夫决策过程

1. 马尔科夫决策
- 1.1 基本概念
- 2. 马尔科夫决策决策过程

1. 马尔科夫决策

1.1 基本概念

马尔科夫性质

定义

若 $t + 1$ 时刻的状态 $s_{t+1}$ 仅与 $t$ 时刻的状态 $s_{t}$ 有关，而与以前的状态无关，则称状态 $s_{t+1}$ 具有马尔科夫性质

随机过程：随机变量序列
马尔科夫过程

设 $S (t)$ 为随机变量序列，若任意 $t_{n + 1}$ 时刻的状态 $S(t_{n + 1})$ , 在经过前 $n$ 个状态 $S(t_i) = s_i, i = 1,…,n $的前提下，其状态转移概率分布函数满足

$P\lbrace S (t_{n+1}) \leq s_{n+1} | S(t_n) = s_{n},S(t_{n-1}) = s_{n-1},..., S(t_1) = s_1 \rbrace = P\lbrace S (t_{n+1}) \leq s_{n+1} | S(t_n) = s_{n}\rbrace$

最低0.47元/天解锁文章

Hogwarts扫地老太太

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习——第二章马尔可夫决策过程 (MDP)

深度强化学习——第二章马尔可夫决策过程 1. 马尔科夫决策1.1 基本概念2. 马尔科夫决策决策过程1. 马尔科夫决策1.1 基本概念马尔科夫性质定义若 t+1t+1t+1 时刻的状态 st+1s_{t+1}st+1仅与 ttt 时刻的状态sts_{t}st有关，而与以前的状态无关，则称状态 st+1s_{t+1}st+1具有马尔科夫性质随机过程：随机变量序列马尔科夫过程设S(t)S(t)S(t)为随机变量序列，若任意 tn+1t_{n + 1}tn+1时刻的状态
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。