前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
1、马尔科夫过程 定义
马尔可夫过程(Markov Process,MP),包含了:一组状态(S),系统可以处于任一状态。一个转移矩阵(T),通过转移概率定义了系统的动态。马尔科夫要求现在状态只和他的前一个状态有关。 P ( s i ∣ s i − 1 , s i − 2... ) = P ( s i ∣ s i − 1 ) P(s_i|s_i-1, s_i-2...) = P(s_i|s_i-1) P(si∣si−1,si−2...)=P(si∣si−1)。
2、一些性质
1)状态空间S是有限的;
2)转移概率矩阵为 N*N,第i行第j列表示从状态i转移到状态j的概率;
3) 马尔可夫性质暗示了稳定性(即所有状态的底层转移概率分布 不会 随着时间变化),否则马尔科夫将不在适用。
3、示例
举个书中晴天雨天的例子,常常用概率转移图表示:假设状态概率转移矩阵T为:
可视化为,其中每个节点表示状态,箭头表示状态转移概率。
总结
本篇只是简单介绍马尔科夫的定义,希望读者对其有个感性认识。