【强化学习】周博磊第3章无模型的价值估计和控制

TwoMonkey

已于 2023-07-23 09:47:06 修改

阅读量104

点赞数

分类专栏：强化学习文章标签：算法

于 2023-07-22 16:37:38 首次发布

本文链接：https://blog.csdn.net/wsy_Monkey/article/details/131869518

版权

强化学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

周博磊第3章无模型的价值估计和控制

Model Free

价值迭代和策略迭代都需已知Dynamic 和 reward [reward 是R(s,a), 是期望奖励]
Model free 无需知道Dynamic 和 reward
Trajectory/Epsisode: {s1, a1, r1, s2, a2, r2 …}

Model Free Prediction

在未知MDP的情况下估计价值函数

Monte Carlo Policy Evaluation
Temporal Difference learning

Monte Carlo 蒙特卡洛方法

Return定义：依据策略 $\pi$ , $G_{t} = R_{t+1} + \gamma R_{t+2} + \gamma R_{t+3} + ...$
$v^{\pi}(s) = \mathbb{E}_{\tau\sim\pi}[G_{t}|s_{t}= s]$ 轨迹 $\tau$ 由策略 $\pi$ 产生
MC：通过大量的采样得到轨迹 $\tau$ ，计算实际的return来估算价值函数

Monte-Carlo 策略估计

主要通过大数定律来计算

记录 episode 每个步骤中的s
N(s) $\gets$ N(s) + 1
S(s) $\gets$ S(s) + $G_{t}$
v(s) = S(s) / N(s)

Incremental Mean

通过叠加计算的方式很重要，后续的推导经常采用
$\mu_{t} = \frac{1}{t}\sum_{j=1}^{t}x_{j} \\ = \frac{{1}}{t}(x_{t} + \sum_{j=1}^{t-1}x_{j}) \\ = \frac{1}{t}(x_{t} + (t-1)\mu_{t-1}) \\ = \mu_{t-1} + \frac{1}{t}(x_{t} - \mu_{t-1})$

Incremental MC updates

获取轨迹（ $S_{1}, A_{1}, R_{1} ... , S_{t}$ ）
$N (S)$ $\gets$ $N(S_{t})$ + 1
$V(S_{t}) \gets V(S_{t}) + \frac{1}{N(S_{t})}(G_{t} - V(S_{t}))$
or. 下面试用在non-stationary问题
$V(S_{t}) \gets v(S_{t}) + \alpha(G_{t}-v(S_{t})))$

DP与MC的区别

MC是无模型的，并不已知MDP
MC通过大量采样获得。即使已经MDP，如果动作及状态空间巨大，MC优于DP。DP 要考虑所有的动作和子状态。
DP:

MC:
请添加图片描述

TD

TD无需知道MDP
可以从非完整序列中，通过bootstraping 方式学习
算法：
$v(S_{t})\gets v(S_{t}) + \alpha(R_{t+1} + \gamma v(S_{t+1}) - V(S_{t}))$
$\delta = R_{t+1} + \gamma v(S_{t+1}) - V(S_{t}))$ TD误差
与MC相比
$V(S_{t}) \gets v(S_{t}) + \alpha(G_{t}-v(S_{t})))$

n步TD方法

介于TD与MC之间，考虑了多个step
请添加图片描述

DP MC 及 TD对比

DP:
请添加图片描述

MC:
请添加图片描述

TD:
请添加图片描述

Monte Carlo with $\epsilon$ -Greedy Exploration

为了平衡exploration 和 expliot

exploration：探索如何去探索这个环境，通过尝试不同的行为得到一个最佳的策略
expoitation：利用不去尝试新的东西，采取已知得到很大奖励的行为
$\pi(a|s) = \left\{ \begin{array}{lc} \epsilon / |A| + 1 - \epsilon, & if a = arg max_{a \in A}q^{*}(s, a) \\ \epsilon / |A|, & otherwise\\ \end{array} \right.$
说明：