强化学习入门:马尔科夫过程


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》

1、马尔科夫过程 定义

  马尔可夫过程(Markov Process,MP),包含了:一组状态(S)​,系统可以处于任一状态。一个转移矩阵(T)​,通过转移概率定义了系统的动态。马尔科夫要求现在状态只和他的前一个状态有关。 P ( s i ∣ s i − 1 , s i − 2... ) = P ( s i ∣ s i − 1 ) P(s_i|s_i-1, s_i-2...) = P(s_i|s_i-1) P(sisi1,si2...)=P(sisi1)

2、一些性质

 1)状态空间S是有限的;
 2)转移概率矩阵为 N*N,第i行第j列表示从状态i转移到状态j的概率;
 3) 马尔可夫性质暗示了稳定性(即所有状态的底层转移概率分布 不会 随着时间变化),否则马尔科夫将不在适用。

3、示例

 举个书中晴天雨天的例子,常常用概率转移图表示:假设状态概率转移矩阵T为:
在这里插入图片描述
 可视化为,其中每个节点表示状态,箭头表示状态转移概率。
在这里插入图片描述

总结

 本篇只是简单介绍马尔科夫的定义,希望读者对其有个感性认识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值