含 tag 的markdown数学公式不显示了333333333333333333333333333333333333333

最新推荐文章于 2023-04-01 23:53:26 发布

Miykael_xxm

最新推荐文章于 2023-04-01 23:53:26 发布

阅读量1.9k

点赞数

分类专栏： markdown

本文链接：https://blog.csdn.net/xiongjiamu/article/details/79188698

版权

markdown 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

这个问题目测跟上周解决markdown语法里面的某个默认配置打开了有关系，目前凡是有 \tag{1} 这样语法的公式在前台都会看不见~~~

1 基本模型

马尔科夫决策过程的基本模型是一个四元组 <S,A,T,R> <script type="math/tex" id="MathJax-Element-1"> </script>

状态空间 $S$ ：指智能体所有可能相处的状态的集合

行为空间 $A$ ：指智能体在所有状态上可能采取的行为集合

状态转移函数 $T：S\times A\times S'\rightarrow[0,1]$ ， $T(s,a,s')$ 表示在状态 $s$ 采取动作 $a$ 转移到状态 $s'$ 的概率，有 $\sum_{s' S}T(s,a,s')=1$

收益函数 $R：S\times A\rightarrow R$ ，在这儿一般用 $R(s,a)$ 表示在状态 $s$ 采取动作 $a$ 得到的立即收益。

2 模型的意义

马尔科夫决策过程模型的意义在于对智能体所处的每一个状态 $s$ 给出一个最优的行为，在这里将之称为策略，用 $\pi(s)$ 表示。这个行为要以智能体获得的长期报酬的期望最大化为目标，即 $\max E[\sum_t R_t(s_t,a_t)]$ 。 $R_t$ 表示智能体在第 $t$ 步得到的报酬。为了保证模型收敛可解，这里通常会引入一个折扣因子 $\gamma, 0<\gamma<1$ ，这时长期报酬就可写为 $\max E[\sum_t \gamma^t R_t(s_t,a_t)]$ 。
定义智能体的值函数 $V^{\pi}:S\rightarrow R$ 为在状态 $s$ ，采用策略 $\pi$ 的期望报酬

V π (s) = E [\sum t = 0 \infty γ t R t (s t, a t)]

$V^{\pi}(s)=E[\sum_{t=0}^{\infty} \gamma^t R_t(s_t,a_t)]$

Vπ(s)=E[∑∞t=0γtRt(st,at)] V π ( s ) = E [ ∑ t = 0 ∞ γ t R t ( s t , a t ) ] $V^{\pi}(s)=E[\sum_{t=0}^{\infty} \gamma^t R_t(s_t,a_t)]$

Vπ(s)=E[∑∞t=0γtRt(st,at)](1) (1) V π ( s ) = E [ ∑ t = 0 ∞ γ t R t ( s t , a t ) ] $V^{\pi}(s)=E[\sum_{t=0}^{\infty} \gamma^t R_t(s_t,a_t)] \tag{1}$
对公式1利用全概率公式递归展开可得

Vπ(s)=R(s,π(s))+γ∑s′∈STπ(s)(s,s′)Vπ(s)(s′)(2) (2) V π ( s ) = R ( s , π ( s ) ) + γ ∑ s ′ ∈ S T π ( s ) ( s , s ′ ) V π ( s ) ( s ′ ) $V^{\pi}(s)=R(s,\pi(s))+\gamma \sum_{s'\in S}T^{\pi(s)}(s,s')V^{\pi(s)}(s') \tag{2}$
为了更好的描述策略，定义一个行为值函数的概念

Qπ:S×A→R Q π : S × A → R $Q^{\pi}:S\times A\rightarrow R$ ，表示在状态

s s $s$ 采取行为

a

$a$ ，其他状态继续采用策略

π π $\pi$ 所得到的报酬，计算方法如下，

Qπ(s,a)=R(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(3) (3) Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ ) $Q^{\pi}(s,a)=R(s,a)+\gamma \sum_{s'\in S}T^{a}(s,s')V^{\pi}(s') \tag{3}$
为了得到最大的报酬，有

π(s)=argmaxa∈AQπ(s,a)(4) (4) π ( s ) = arg ⁡ max a ∈ A Q π ( s , a ) $\pi(s) = \arg\max_{a \in A} Q^{\pi}(s,a) \tag{4}$
即

π(s)=argmaxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(5) (5) π ( s ) = arg ⁡ max a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ ) $\pi(s) = \arg\max_{a \in A} R(s,a)+\gamma \sum_{s'\in S}T^{a}(s,s')V^{\pi}(s') \tag{5}$
结合公式2可得，

Vπ(s)=maxa∈AR(s,a)+γ∑s′∈STa(s,s′)Vπ(s′)(6) (6) V π ( s ) = max a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S T a ( s , s ′ ) V π ( s ′ ) $V^{\pi}(s) =\max_{a \in A} R(s,a)+\gamma \sum_{s'\in S}T^{a}(s,s')V^{\pi}(s') \tag{6}$