含 tag 的markdown数学公式不显示了333333333333333333333333333333333333333

这个问题目测跟上周解决markdown语法里面的某个默认配置打开了有关系,目前凡是 有 \tag{1} 这样语法的公式在前台都会看不见~~~

1 基本模型

马尔科夫决策过程的基本模型是一个四元组 <S,A,T,R> < S , A , T , R > <script type="math/tex" id="MathJax-Element-1"> </script>

状态空间 S S :指智能体所有可能相处的状态的集合

行为空间A:指智能体在所有状态上可能采取的行为集合

状态转移函数 TS×A×S[0,1] T : S × A × S ′ → [ 0 , 1 ] T(s,a,s) T ( s , a , s ′ ) 表示在状态 s s 采取动作a转移到状态 s s ′ 的概率,有 sST(s,a,s)=1 ∑ s ′ S T ( s , a , s ′ ) = 1

收益函数 RS×AR R : S × A → R ,在这儿一般用 R(s,a) R ( s , a ) 表示在状态 s s 采取动作a得到的立即收益。

2 模型的意义

马尔科夫决策过程模型的意义在于对智能体所处的每一个状态 s s 给出一个最优的行为,在这里将之称为策略,用π(s)表示。这个行为要以智能体获得的长期报酬的期望最大化为目标,即 maxE[tRt(st,at)] max E [ ∑ t R t ( s t , a t ) ] Rt R t 表示智能体在第 t t 步得到的报酬。为了保证模型收敛可解,这里通常会引入一个折扣因子γ,0<γ<1,这时长期报酬就可写为 maxE[tγtRt(st,at)] max E [ ∑ t γ t R t ( s t , a t ) ]
定义智能体的值函数 Vπ:SR V π : S → R 为在状态 s s ,采用策略π的期望报酬

Vπ(s)=E[t=0γtRt(st,at)] V π ( s ) = E [ ∑ t = 0 ∞ γ t R t ( s t , a t ) ]

Vπ(s)=E[t=0γtRt(st,at)] V π ( s ) = E [ ∑ t = 0 ∞ γ t R t ( s t , a t ) ]
Vπ(s)=E[t=0γtRt(st,at)](1) (1) V π ( s ) = E [ ∑ t = 0 ∞ γ t R t ( s t , a t ) ]
对公式1利用全概率公式递归展开可得
Vπ(s)=R(s,π(s))+γsSTπ(s)(s,s)Vπ(s)(s)(2) (2) V π ( s ) = R ( s , π ( s ) ) + γ ∑ s ′ ∈ S T π ( s ) ( s , s ′ ) V π ( s ) ( s ′ )
为了更好的描述策略,定义一个行为值函数的概念 Qπ:S×AR Q π : S × A → R ,表示在状态 s s 采取行为a,其他状态继续采用策略 π π 所得到的报酬,计算方法如下,
Qπ(s,a)=R(s,a)+γsSTa(s,s)Vπ(s)(3) (3) Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ )
为了得到最大的报酬,有
π(s)=argmaxaAQπ(s,a)(4) (4) π ( s ) = arg ⁡ max a ∈ A Q π ( s , a )

π(s)=argmaxaAR(s,a)+γsSTa(s,s)Vπ(s)(5) (5) π ( s ) = arg ⁡ max a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ )
结合公式2可得,
Vπ(s)=maxaAR(s,a)+γsSTa(s,s)Vπ(s)(6) (6) V π ( s ) = max a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ )

3 模型的求解
值迭代

算法流程如下


  1. 对所有的 sS s ∈ S 随机初始化 V(s)=0 V ( s ) = 0
  2. 根据公式6,对 V(s) V ( s ) 进行更新,直至收敛

与线性方程组的迭代解法类似,值迭代流程的第二步可以采用同步和异步的不同方式进行更新。

策略迭代

  1. 对所有的 sS s ∈ S ,随机初始化策略 π(s) π ( s )
  2. 根据公式6对V(s)进行更新,根据公式5,对策略进行更新
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Miykael_xxm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值