【强化学习】入门学习

最新推荐文章于 2024-07-02 19:05:24 发布

王王王_0531

最新推荐文章于 2024-07-02 19:05:24 发布

阅读量309

点赞数

文章标签： pytorch 强化学习

本文链接：https://blog.csdn.net/weixin_44546606/article/details/106959480

版权

一、马尔科夫决策过程(Markov Decision Process）MDP

假设状态s下采取动作a,转到下一个状态s′的概率，表示为 $P_{ss'}^a$
如果按照真实的环境转化过程看，转化到下一个状态s′的概率既与上一个状态s有关，还与上上个状态，以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂，复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性，也就是假设转化到下一个状态s′的概率仅与上一个状态s有关，与之前的状态无关。用公式表示就是：
$P_{ss'}^a = E(S_{t+1}=s'|S_t = s,A_t=a)$
马尔科夫决策过程由元组 $(S,A,P,R,\gamma )$ 组成，S为有限状态集，A为有限的动作集，P为状态转移概率，R为回报函数， $\gamma$ 为折扣因子。
策略函数： $\pi (a|s) = p[A_t =a|S_t=s]$ ，：策略 $\pi$ 在每个状态 s 指定一个动作概率。如果给出的策略 $\pi$ 是确定性的，那么策略 $\pi$ 在每个状态 s 指定一个确定的动作。
累计回报函数： $G_t = R_{t+1}+\gamma R_{t+2} + … = \sum_{k=0}^\infty \gamma ^kR_{t+k+1}$
状态价值函数： $v_\pi(s) =E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+…|S_t=s)$

关注