R-learning 马尔可夫决策

最新推荐文章于 2023-11-03 16:46:45 发布

廷益--飞鸟

最新推荐文章于 2023-11-03 16:46:45 发布

阅读量375

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_45875105/article/details/118553022

版权

本文介绍了马尔可夫决策过程（MDP）的基本概念，包括状态转移概率、回报函数和策略概率。解释了总收益回报的计算方式，并引入了衰减因子。此外，还详细讨论了值函数的定义、贝尔曼方程及其与策略π的关系，以及动作价值函数qπ。最后阐述了状态间值函数的关系，展示了MDP中状态和动作价值函数的相互影响。

摘要由CSDN通过智能技术生成

1、马尔可夫决策定义（Markov）

$M D P = (S, A, P, R)$
$M D P = (S, A, P, R, γ)$

b、策略过程

智能体(agent)与环境(environment)一直在互动。在每个时刻t，智能体(agent)会接收到来自环境的状态s，基于这个状态s，智能体(agent)会做出动作a，然后这个动作作用在环境上，于是智能体(agent)可以接收到一个奖赏Rt+1，并且智能体(agent)就会到达新的状态s。

$\lbrace S_t,A_t,R_{t+1},S_{t+1},A_{t+1},R_{t+2}...\rbrace$
c、状态转移概率

在t时刻，s状态下, 由s==>s (t+1)的概率

$P_{s,s^\prime} = \Rho[(S_{t+1}=s^\prime | S_t=s)]$

在t时刻，s状态下，执行动作a情况下，由s==>s (t+1)的概率

$P_{s,s^\prime}^{a} = \Rho[(S_{t+1}=s^\prime | S_t=s, A_t=a)]$

d、回报函数

在t时刻，s状态下由s==>s(t+1)的回报

$R_s = E[R_{t+1}|S_t=s]$

在t时刻，s状态下，执行动作a情况下，由s==>s (t+1)的回报

$R_{s}^a = E[R_{t+1}|S_t=s, A_t=a]$

实例说明：
从状态class1 执行动作1 ==> class2 的概率 = 0.5 回馈R = -2
从状态class1 执行动作2 ==> Facebook的概率 = 0.5 回馈R= -1
在这里插入图片描述
e、总收益回报

从开始状态，一直到现在T时刻的，所有状态转移的回报总和回报 (所有经历的状态所得到的回馈和)

$G_t = R_{t+1}+ R_{t+2}+R_{t+3}+... +R_{t+n}$

关注