【强化学习】周博磊第2章马尔科夫决策过程

TwoMonkey

已于 2023-07-17 23:41:10 修改

阅读量61

点赞数

分类专栏：强化学习文章标签：机器学习

于 2023-07-17 23:36:12 首次发布

本文链接：https://blog.csdn.net/wsy_Monkey/article/details/131777212

版权

强化学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

周博磊第2章马尔科夫决策过程

MDP

Markov Process 马尔科夫过程
Markov Reward Process 马尔科夫奖励过程
Markov Decision Proces 马尔科夫决策过程

MDP性质

The furture is independent of the past given the present.
未来的状态只与当前的状态相关

Markov Prcess / Markov Chain

请添加图片描述

Markov Reward Process

S 状态
P 动态转移矩阵
R 奖励函数 $R(s_{t}=s) = \mathbb{E}[r_{t}|S_{t}=s]$
$\gamma$ 折扣因子

Return && Vaule Function

Horizon：每个Episode的最大步长
Return： Horizon的折扣奖励
$G_{t} = R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... + \gamma ^{T-t-1} R_{T}$
$V_{t}(s)$ : Return的期望
$V_{t} = \mathbb{E}[G_{t} | s_{t} = s] \\ = \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \gamma ^{2} R_{t+3} + ... + \gamma^{T-t-1} R_{T} | s_{t} = s]$

折扣因子 $\gamma$

避免环状的马尔科夫过程
未来具有不确定性
更加关注即时的奖励

贝尔曼方程

贝尔曼等式描述了状态间的迭代关系
$\gamma \sum_{s^{'} \in S} P(s^{'}|s) V(s^{'})$

迭代的方式计算MRP

Dynamic Programming
Monte-Carto evalutation
Temporal-Difference Learning

MDP

马尔科夫决策过程相比与奖励过程，加入了动作。也就是说，未来的状态由当前状态和动作共同决定的。
Markov 链/ MRP: 像随波漂流的小船
Markov 决策过程：可以采取导航行为的小船
请添加图片描述

S 状态
A 动作
P 动态转移矩阵 $P(s_{t+1} = s^{'}|s_{t} = s, a_{t} = a)$
R 奖励函数 $R(s_{t}=s) = \mathbb{E}[r_{t}|s_{t}=s, a_{t}=a]$
$\gamma$ 折扣因子

Policy 策略

Policy 是指在某一状态执行某一动作的概率
$\pi = P(a_{t} = a|s=s_{t})$
动态转移方程和奖励由当前状态与动作共同决定
$P^{\pi} = \sum_{a\in A} \pi(a|s) P(s'|s, a)$
$R^{\pi} = \sum_{a\in A} \pi(a|s) R(s, a)$

Value Function 价值函数

$v^{\pi}(s)$ 在s状态下，基于策略 $\pi$ 期望的回报
$V^{\pi} = \mathbb{E}[G_{t}|s_{t}=s]$
$q^{\pi}(s,a)$ 在s状态下，采取行动，基于策略 $\pi$ 期望的回报
$q^{\pi}(s, a) = \mathbb{E}[G_{t}|s_{t} = s, a_{t} = a]$
两者之间的关系
$v^{\pi}(s) = \sum_{a\in A} \pi(a|s)q^{\pi}(s,a)$

贝尔曼期望方程

$v^{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma v^{\pi}(s_{t+1})|s_{t} = s]$
$q^{\pi}(s, a) = \mathbb{E}_{\pi}[R_{t+1} + \gamma q^{\pi}(s_{t+1}, A_{t+1}) | s_{t} = s, A_{t} = a]$
两者之间的关系
请添加图片描述

Policy Evalution

已知策略 $\pi$ MDP, 计算价值函数 $v^{\pi}(s)$
可以用动态规划来做：
$v_{t+1}(s) = \sum_{a\in A} \pi(a|s) (R(s,a) + \gamma\sum_{s'\in S} P(s^{'}|s, a)V_t(s^{'}))$

Control

已知MDP，寻找最优价值函数和策略
最优函数可以通过寻找最大化 $q^{*}(s, a)$
$\pi^{*}(a|s) = \left\{ \begin{array}{lc} 1, & if a = arg max_{a \in A}q^{*}(s, a) \\ 0, & otherwise\\ \end{array} \right.$

演示样例

动画：
https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_dp.html
代码：
https://github.com/cuhkrlcourse/RLexample/tree/master/MDP

通过策略迭代更新策略

请添加图片描述

步骤一：基于策略 $\pi$ 计算价值函数
$q^{\pi_{i}}(s, a) = R(s, a) + \gamma \sum_{s^{'}\in S} P(s^{'} | s, a)v^{\pi_{i}}(s')$
步骤二：依据价值函数更新策略
$\pi_{i+1}(s) = \argmax_{a} q^{\pi_{i}(s, a)}$

值迭代

请添加图片描述

贝尔曼最优方程

$v^{*} = \max_{a} q^{*}(s,a) \\ q^{*}(s, a) = R(s, a) + \gamma \sum_{s^{'} \in S}P(s^{'}|s, a)v(s^{'})$
=>
$v^{*} = \max_{a}R(s,a) + \gamma \sum_{s^{'} \in S}P(s^{'}|s, a)v(s^{'}) \\ q^{*}(s, a) = R(s, a) + \gamma \sum_{s^{'} \in S}P(s^{'}|s, a)\max_{a^{'}}q^{*}(s^{'}, a^{'})$

策略迭代 VS 价值迭代

策略迭代：【策略估计 + 策略更新】作为一个整体过程，需要迭代多次
价值阶段：找出最优价值函数 + 策略提取寻找最优策略是个迭代过程，策略提取取最大价值的动作即是策略。

TwoMonkey

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【强化学习】周博磊第2章马尔科夫决策过程

马尔科夫决策过程相比与奖励过程，加入了动作。也就是说，未来的状态由当前状态和动作共同决定的。Markov 链/ MRP: 像随波漂流的小船。Markov 决策过程：可以采取导航行为的小船。Policy 是指在某一状态执行某一动作的概率。动态转移方程和奖励由当前状态与动作共同决定。已知MDP，寻找最优价值函数和策略。未来的状态只与当前的状态相关。最优函数可以通过寻找最大化。MDP, 计算价值函数。
复制链接

扫一扫