《强化学习Sutton》读书笔记(二)——有限马尔科夫决策过程(Finite Markov Decision Processes)

此为《强化学习》第三章 Finite Markov Decision Processes

用户-环境接口

马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ,其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第 t t 时刻,用户处于状态 S t ,得到奖励 Rt R t ,在某个策略下选择了行为 At A t ,从而进入下一个状态 St+1 S t + 1 ,得到下一个状态的奖励 Rt+1 R t + 1 ,如下图所示。

用户环境接口示意图

注意,有的时候环境并不会根据 (St,At) ( S t , A t ) 提供一组固定的 (St+1,Rt+1) ( S t + 1 , R t + 1 ) ,而是按概率分布随机选择一个,因此有

p(s,r|s,a)Pr{ St+1=s,Rt+1=r|St=s,At=a} p ( s ′ , r | s , a ) ≐ Pr { S t + 1 = s ′ , R t + 1 = r | S t = s , A t = a }

概率显然满足

sSrRp(s,r|s,a)=1,(sS,aA) ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r | s , a ) = 1 , ( ∀ s ∈ S , a ∈ A )

目标和奖励

在学习决策过程中,目标 (Goal) 是最大化累计奖励的期望值。

离散时刻下的回报

离散时刻 (Episodic) 下,我们可以把整个过程分解为一个个时刻。在 t t 时刻,我们定义期望回报 (Expected Return) G t 为未来各个时刻(直到最终时刻 T T )得到的奖励,即

G t R t + 1 + R t + 2 + . . . + R T

通常,我们认为较近时刻得到的奖励应赋予更大的权重,因此我们给每个时刻的奖励加上一个衰减比例 (Discount Rate) γ[0,1] γ ∈ [ 0 , 1 ] ,即

GtRt+1+γRt+2+γ2Rt+3+...=k=0γkRt+1+k G t ≐ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + 1 + k

显然有

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值