【强化学习】入门学习

一、马尔科夫决策过程(Markov Decision Process)MDP

  • 假设状态s下采取动作a,转到下一个状态s′的概率,表示为 P s s ′ a P_{ss'}^a Pssa
  • 如果按照真实的环境转化过程看,转化到下一个状态s′的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s′的概率仅与上一个状态s有关,与之前的状态无关。用公式表示就是:
    P s s ′ a = E ( S t + 1 = s ′ ∣ S t = s , A t = a ) P_{ss'}^a = E(S_{t+1}=s'|S_t = s,A_t=a) Pssa=E(St+1=sSt=s,At=a)
  • 马尔科夫决策过程由元组 ( S , A , P , R , γ ) (S,A,P,R,\gamma ) (S,A,P,R,γ)组成,S为有限状态集,A为有限的动作集,P为状态转移概率,R为回报函数, γ \gamma γ为折扣因子。
  • 策略函数: π ( a ∣ s ) = p [ A t = a ∣ S t = s ] \pi (a|s) = p[A_t =a|S_t=s] π(as)=p[At=aSt=s],:策略 π \pi π在每个状态 s 指定一个动作概率。如果给出的策略 π \pi π是确定性的,那么策略 π \pi π在每个状态 s 指定一个确定的动作。
  • 累计回报函数: G t = R t + 1 + γ R t + 2 + … = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1}+\gamma R_{t+2} + … = \sum_{k=0}^\infty \gamma ^kR_{t+k+1} Gt=Rt+1+γRt+2+=k=0γkRt+k+1
  • 状态价值函数: v π ( s ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + … ∣ S t = s ) v_\pi(s) =E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+…|S_t=s) vπ(s)=E
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值