强化学习初级阶段-1

最新推荐文章于 2022-09-08 15:01:19 发布

JemeYufeng

最新推荐文章于 2022-09-08 15:01:19 发布

阅读量215

点赞数

分类专栏：机器学习文章标签：强化学习

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文转自
马尔科夫决策过程：基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物，故又称为马尔科夫型随机动态规划。

具备马尔科夫链属性：
一个事件/物体可视为无数（状态，动作）的切片积分而成，而下一个状态 $s'$ 仅与当前状态 $s$ 有关，与历史状态无关。例如：下棋的时候，每一步的决策都仅与当前棋局的状态有关，而下棋者是基于最终收益作为动作的策略依据。
由 $(S,A,R,P)$ 四个变量描述
$S:State$ 状态序列；
$A:Action$ 由状态映射到动作序列；
$R:Reward$ 回报函数，立即回报；
$P:$ 状态转移概率序列。
引入值函数概率来衡量，当前状态的长期收益
3.1 状态值函数
$V^\pi = E_{\pi}[\sum\limits_{i=0}^\infty \gamma^i r_i |s_0 = s]$
$\gamma$ 为折扣因子：用来加权与当前状态时间最接近的动作影响力越大；
$\gamma=0$ 时，相当于只考虑立即不考虑长期回报；
$\gamma=1$ 时，将长期回报和立即回报看得同等重要。

3.2 加入（状态、动作）转移概率后
$V^\pi = \sum\limits_{s' \in S} p(s'|s,a)[r(s'|s,a)+\gamma V^\pi(s')]$
3.3 MDP的最优策略
$\pi^* = \mathop {\arg \max }\limits_\pi V^\pi(s)$
即能够使得 $V^\pi(s)$ 在任意状态 $s$ 下均能获得最大值的策略 $\pi$ 。如何进行求解？获得最优策略的三种方法：

3.3.1、动态规划法
3.3.2、蒙特卡洛方法
3.3.3、时间差分法

3.4 动态规划法（贝尔曼方程）
$Q^*(s)=E[r(s'|s,a)+\gamma \mathop {\max }\limits_{a'} Q^*(s',a')|s_0=s,a_s=a ]$
$=\sum\limits p(s'|s,\pi(s))[r'(s'|s,\pi(s))+\gamma \mathop {\max }\limits_{a \in A(s)} Q^*(s',a') ]$
3.5 Q函数-（引入了动作的值函数）
3.5.1 定义动作值函数（Q函数）如下：
$Q^\pi(s,a)=E[\sum\limits_{i=0}^\infty \gamma^i r_i | s_0=s,a_0=a]$
3.5.2 给定当前状态 $s$ 和当前状态 $a$ ，在未来遵循策略 $\pi$ ，那么系统将以概率 $p(s'|s,a)$ 转向下个状态 $s'$ ，上式可以重写为：
$Q^\pi(s,a)=\sum\limits_{s'\in S} p(s'|s,a)[r(s'|s,a) + \gamma V^\pi(s')]$
3.3 值迭代
$Q(s,a)=r+\gamma * max(Q(基于s'下任意a'))$

JemeYufeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习初级阶段-1

本文转自马尔科夫决策过程：基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物，故又称为马尔科夫型随机动态规划。具备马尔科夫链属性：一个事件/物体可视为无数（状态，动作）的切片积分而成，而下一个状态s′s'仅与当前状态ss有关，与历史状态无关。例如：下棋的时候，每一步的决策都仅与当前棋局的状态有关，而下棋者是基于最终收益作为动作的策略依据。
复制链接

扫一扫

专栏目录