R-learning 马尔可夫决策

本文介绍了马尔可夫决策过程(MDP)的基本概念,包括状态转移概率、回报函数和策略概率。解释了总收益回报的计算方式,并引入了衰减因子。此外,还详细讨论了值函数的定义、贝尔曼方程及其与策略π的关系,以及动作价值函数qπ。最后阐述了状态间值函数的关系,展示了MDP中状态和动作价值函数的相互影响。
摘要由CSDN通过智能技术生成

1、马尔可夫决策定义(Markov)

M D P = ( S , A , P , R ) MDP = (S,A,P,R) MDP=(S,A,P,R)
M D P = ( S , A , P , R , γ ) MDP = (S,A,P,R, γ) MDP=(S,A,P,R,γ)

a、基本概念说明

符号 说明 符号 说明
s (state) 环境状态 S 环境状态集合 s∈S
a (action) 动作状态 A 动作状态集合 a∈A
r (reward) 环境回报(奖励)
γ 衰减因子γ∈[0~1]
t 时刻
P(probability) 转移概率

b、策略过程

智能体(agent)与环境(environment)一直在互动。在每个时刻t,智能体(agent)会接收到来自环境的状态s,基于这个状态s,智能体(agent)会做出动作a,然后这个动作作用在环境上,于是智能体(agent)可以接收到一个奖赏Rt+1,并且智能体(agent)就会到达新的状态s。

{ S t , A t , R t + 1 , S t + 1 , A t + 1 , R t + 2 . . . } \lbrace S_t,A_t,R_{t+1},S_{t+1},A_{t+1},R_{t+2}...\rbrace { St,At,Rt+1,St+1,At+1,Rt+2...}
c、状态转移概率

在t时刻,s状态下, 由s==>s (t+1)的概率

P s , s ′ = P [ ( S t + 1 = s ′ ∣ S t = s ) ] P_{s,s^\prime} = \Rho[(S_{t+1}=s^\prime | S_t=s)] Ps,s=P[(St+1=sSt=s)]

在t时刻,s状态下,执行动作a情况下,由s==>s (t+1)的概率

P s , s ′ a = P [ ( S t + 1 = s ′ ∣ S t = s , A t = a ) ] P_{s,s^\prime}^{a} = \Rho[(S_{t+1}=s^\prime | S_t=s, A_t=a)] Ps,sa=P[(St+1=sSt=s,At=a)]

d、回报函数

在t时刻,s状态下 由s==>s(t+1)的回报

R s = E [ R t + 1 ∣ S t = s ] R_s = E[R_{t+1}|S_t=s] Rs=E[Rt+1St=s]

在t时刻,s状态下,执行动作a情况下,由s==>s (t+1)的回报

R s a = E [ R t + 1 ∣ S t = s , A t = a ] R_{s}^a = E[R_{t+1}|S_t=s, A_t=a] Rsa=E[Rt+1St=s,At=a]

实例说明:
从状态class1 执行动作1 ==> class2 的概率 = 0.5 回馈R = -2
从状态class1 执行动作2 ==> Facebook的概率 = 0.5 回馈R= -1
在这里插入图片描述
e、总收益回报

从开始状态,一直到现在T时刻的,所有状态转移的回报总和 回报 (所有经历的状态所得到的回馈和)

G t = R t + 1 + R t + 2 + R t + 3 + . . . + R t + n G_t = R_{t+1}+ R_{t+2}+R_{t+3}+... +R_{t+n} Gt=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

廷益--飞鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值