第16章强化学习

最新推荐文章于 2024-06-28 11:42:29 发布

CharlesVan

最新推荐文章于 2024-06-28 11:42:29 发布

阅读量341

点赞数 1

分类专栏： Machine Learning 文章标签：贪心算法蒙特卡罗算法 Softmax算法有模型学习模仿学习

本文链接：https://blog.csdn.net/williananjhon/article/details/96863894

版权

Machine Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

第16章强化学习

16.1 任务与奖赏

强化学习任务通常用马尔可夫决策过程(Markov Decision Process,MDP)来描述：及其处于缓解E中，状态空间为X，其中每个状态 $\in X$ 是机器感知到缓解的描述，机器能采取的动作构成了动作空间A，若某个动作 $\in A$ 作用在当前状态 $x$ 上，则潜在的转移函数 $P$ 将使得环境从当前状态按某种概率转移到另一种状态。

在转移到另一个状态的同时，环境会根据潜在的奖赏(reward)函数 $R$ 反馈给机器一个奖赏。

强化学习任务对应了四元组 $\left\langle X,A,P,R \right\rangle$ ，其中 $\times A \times X \rightarrow R$ 指定了状态转移概率； $\times A \times X\mathbb{\rightarrow R}$ 指定了奖赏。

机器通过在环境中不断地尝试而学得一个策略 $\pi$ ，根据这个策略，在状态 $x$ 下就能得知要执行的动作 $\pi\left( x \right)$ 。策略的两种表示方法：一种是将策略表示为函数 $\pi:X \rightarrow A$ ，确定性策略常用这种表示；另一种是概率表示 $\pi:X \times A\mathbb{\rightarrow R}$ ，随机性策略常用这种表示， $\pi\left( x,a \right)$ 为状态 $x$ 下选择动作 $a$ 的概率，这里必须有 $\sum_{a}^{}{\pi\left( x,a \right) = 1}$

16.2 K-摇臂赌博机

16.2.1 探索与利用

欲最大化单步奖赏考虑：1、需要知道每个动作带来的奖赏；2、执行奖赏最大的动作

K-摇臂赌博机(K-armed bandit)：单步强化学习任务对应的理论模型

仅探索法：将所有的尝试机会平均分配给每个摇臂，最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。

仅利用法：按下目前最优的摇臂，若有多个摇臂同时为最优，则从中随机选取一个。

16.2.2 $\mathbf{\epsilon}$ -贪心

$\epsilon$ -贪心法基于概率来对探索和利用进行折中：每次尝试时，以 $\epsilon$ 的概率进行探索，以 $\epsilon$ 的概率进行利用。

令 $Q\left( k \right)$ 记录摇臂 $k$ 的平均奖赏。若摇臂 $k$ 被尝试 $n$ 次，得到的奖赏为 $v_{1},v_{2},\ldots,v_{n}$ ，平均奖赏为

$Q\left( k \right) = \frac{1}{n}\sum_{i = 1}^{n}v_{i}$
在这里插入图片描述

16.2.3 Softmax

Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。若个摇臂的平均奖赏相当，则选取各摇臂的概率也相当；若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显高。

Softmax算法中的摇臂概的分配是基于Boltzmann分布

$P\left( k \right) = \frac{e^{\frac{Q\left( k \right)}{\tau}}}{\sum_{i = 1}^{K}e^{\frac{Q\left( i \right)}{\tau}}}$

其中 $Q\left( i \right)$ 记录当前摇臂的平均奖赏
在这里插入图片描述

16.3 有模型学习

16.3.1 策略评估

令函数 $V^{\pi}\left( x \right)$ 表示从状态 $x$ 出发，使用策略 $\pi$ 所带来的累积奖赏，函数 $Q^{\pi}\left( x,a \right)$ 表示从状态 $x$ 出发，执行动作 $a$ 后再使用策略 $\pi$ 所带来的累积奖赏。 $V\left( . \right)$ 为状态值函数，Q $\left( . \right)$ 为状态-动作值函数。

由累积奖赏的定义，有状态值函数

$\left\{ \begin{matrix} V_{T}^{\pi}\left( x \right) = \mathbb{E}_{\pi}\left\lbrack \left. \ \frac{1}{T}\sum_{i = 1}^{T}r_{t} \right|x_{0} = x \right\rbrack,T \\ V_{\gamma}^{\pi}\left( x \right) = \mathbb{E}_{\pi}\left\lbrack \left. \ \sum_{i = 1}^{+ \infty}{\gamma^{t}r}_{t + 1} \right|x_{0} = x \right\rbrack,\gamma \\ \end{matrix} \right.\$

令 $x_{0}$ 表示起始状态， $a_{0}$ 表示起始状态上采取的第一个动作，对于T步累积奖赏，则有状态-动作值函数

$\left\{ \begin{matrix} Q_{T}^{\pi}\left( x,a \right) = \mathbb{E}_{\pi}\left\lbrack \left. \ \frac{1}{T}\sum_{i = 1}^{T}r_{t} \right|x_{0} = x,a_{0} = a \right\rbrack \\ Q_{\gamma}^{\pi}\left( x,a \right) = \mathbb{E}_{\pi}\left\lbrack \left. \ \sum_{i = 1}^{+ \infty}{\gamma^{t}r}_{t + 1} \right|x_{0} = x,a_{0} = a \right\rbrack \\ \end{matrix} \right.\$

则T步累积奖赏有

$V_{T}^{\pi}\left( x \right) = \mathbb{E}_{\pi}\left\lbrack \left. \ \frac{1}{T}\sum_{i = 1}^{T}r_{t} \right|x_{0} = x \right\rbrack$

$\mathbb{E}_{\pi}\left\lbrack \left. \ \frac{1}{T}r_{1} + \frac{T - 1}{T}\frac{1}{T - 1}\sum_{i = 2}^{T}r_{t} \right|x_{0} = x \right\rbrack$

$\sum_{a \in A}^{}{\pi\left( x,a \right)\sum_{x^{'} \in X}^{}{P_{x \rightarrow x^{'}}^{a}\left( \frac{1}{T}R_{x \rightarrow x^{'}}^{a} + \frac{T - 1}{T}\mathbb{E}_{\pi}\left\lbrack \left. \ \frac{1}{T - 1}\sum_{i = 1}^{T - 1}r_{t} \right|x_{0} = x' \right\rbrack \right)}}$

$\sum_{a \in A}^{}{\pi\left( x,a \right)\sum_{x^{'} \in X}^{}{P_{x \rightarrow x^{'}}^{a}\left( \frac{1}{T}R_{x \rightarrow x^{'}}^{a} + \frac{T}{T - 1}V_{T - 1}^{\pi}\left( x^{'} \right) \right)}}$

类似的，对于 $\gamma$ 折扣累积奖赏有

$V_{\gamma}^{\pi}\left( x \right) = \sum_{a \in A}^{}{\pi\left( x,a \right)\sum_{x^{'} \in X}^{}{P_{x \rightarrow x^{'}}^{a}\left( R_{x \rightarrow x^{'}}^{a} + \gamma V_{\gamma}^{\pi}\left( x^{'} \right) \right)}}$
在这里插入图片描述
则状态-动作值函数

$\left\{ \begin{matrix} Q_{T}^{\pi}\left( x,a \right) = \sum_{x^{'} \in X}^{}{P_{x \rightarrow x^{'}}^{a}\left( \frac{1}{T}R_{x \rightarrow x^{'}}^{a} + \frac{T}{T - 1}V_{T - 1}^{\pi}\left( x^{'} \right) \right)} \\ Q_{\gamma}^{\pi}\left( x,a \right) = \sum_{x^{'} \in X}^{}{P_{x \rightarrow x^{'}}^{a}\left( R_{x \rightarrow x^{'}}^{a} + \gamma V_{\gamma}^{\pi}\left( x^{'} \right) \right)} \\ \end{matrix} \right.\$

16.3.2 策略改进

理想的策略响应能最大化累积奖赏
在这里插入图片描述

一个强化学习任务可能有多个最优策略，最优策略所对应的值函数 $V^{*}$ 称为最优值函数，即

$\forall x \in X:V^{*}\left( x \right) = V^{\pi^{*}}\left( x \right)$

对累积奖赏进行改进
在这里插入图片描述

即改进后为
在这里插入图片描述

则最优状态-动作值函数
在这里插入图片描述
最优Bellman等式揭示了非最优策略的改进方式：将策略选择的动作改进为当前最优的动作。

16.3.3 策略迭代与值迭代

策略迭代(policy iteration)：从一个初始策略出发，先进行策略评估，然后改进策略，评估改进的策略，再进一步改进策略，……不断迭代进行测量评估和改进，直到测量收敛、不再改变为止。

在这里插入图片描述
则值函数的改进为

在这里插入图片描述

16.4 免模型学习

免模型学习(model-free learning)：若学习算法不依赖于环境建模

16.4.1 蒙特卡罗强化学习

同策略蒙特卡罗强化学习算法

算法中奖赏均值采用增量式计算，每采样出一条轨迹，就根据该轨迹涉及的所有状态-动作对来对值函数进行更新
在这里插入图片描述
函数 $f$ 在概率分布 $p$ 的期望可表达为

$\mathbb{E}\left\lbrack f \right\rbrack = \int_{x}^{}{p\left( x \right)f\left( x \right)\text{dx}}$

可通过从概率分布 $p$ 上的采样 $\left\{ x_{1},x_{2},\ldots,x_{m} \right\}$ 来估计 $f$ 的期望，即

$\hat{\mathbb{E}}\left\lbrack f \right\rbrack = \frac{1}{m}\sum_{i = 1}^{m}{f\left( x \right)}$

若引入另一个分布 $q$ ,则函数 $f$ 在概率分布 $p$ 下的期望为

$\mathbb{E}\left\lbrack f \right\rbrack = \int_{x}^{}{q\left( x \right)\frac{p\left( x \right)}{q\left( x \right)}f\left( x \right)\text{dx}}$

上式可看作 $\frac{p\left( x \right)}{q\left( x \right)}f\left( x \right)$ 在分布 $q$ 下的期望，因此通过在 $q$ 上的采样 $\left\{ x_{1}^{'},x_{2}^{'},\ldots,x_{m}^{'} \right\}$ 可估计为

$\hat{\mathbb{E}}\left\lbrack f \right\rbrack = \frac{1}{m}\sum_{i = 1}^{m}\frac{p\left( x_{i}^{'} \right)}{q\left( x_{i}^{'} \right)}f\left( x_{i}^{'} \right)$

对累积奖赏估计期望

$Q\left( x,a \right) = \frac{1}{m}\sum_{i = 1}^{m}R_{i}$

其中 $R_{i}$ 表示第 $i$ 条轨迹上自状态 $x$ 至结束的累积奖赏。

若改用策略 $\pi^{'}$ 的采样轨迹来评估策略 $\pi$ ，则仅需对累积奖赏加权，即

$Q\left( x,a \right) = \frac{1}{m}\sum_{i = 1}^{m}{\frac{P_{i}^{\pi}}{P_{i}^{\pi^{'}}}R_{i}}$

其中 $P_{i}^{\pi}$ 和 $P_{i}^{\pi^{'}}$ 分别表示两个策略产生第 $i$ 条轨迹的概率

对于给定的一条轨迹 $\left\langle x_{0},a_{0},r_{1},\ldots,x_{T - 1},a_{T - 1},r_{T},x_{T} \right\rangle$ ，策略 $\pi$ 产生该轨迹的概率为

$P^{\pi} = \prod_{i = 0}^{T - 1}{\pi\left( x_{i},a_{i} \right)P_{x_{i} \rightarrow x_{i + 1}}^{a_{i}}}$

两个策略概率的比值

$\frac{P^{\pi}}{P^{\pi^{'}}} = \prod_{i = 0}^{T - 1}\frac{\pi\left( x_{i},a_{i} \right)}{\pi^{'}\left( x_{i},a_{i} \right)}$
在这里插入图片描述

16.4.2 时序差分学习

时序差分学习(Temporal Difference,TD)：结合了动态规划与蒙特卡罗方法的思想，能做到更高效的免模型学习。

蒙特卡罗强化学习算法的本质：通过多次尝试后求平均作为期望累积奖赏的近似，但它在求平均时是批处理式进行的，即在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新。
在这里插入图片描述

16.5 值函数近似

表格值函数(tabular value function)：值函数能表示为一个数值，输入 $i$ 对应的函数值就是数值元素 $i$ 的值，且更改一个状态上的值不会影响其他状态上的值。

假定状态空间为n维实数空间 $\mathbb{R}^{n}$ ，值函数能表达为状态的线性函数

$V_{\theta}\left( x \right) = \theta^{T}x$

其中 $x$ 为状态向量， $\theta$ 为参数向量。

值函数尽可能近似真实值函数 $V^{\pi}$ ，用最小二乘误差来度量

$E_{\theta} = \mathbb{E}_{x\sim\pi}\left\lbrack \left( V^{\pi}\left( x \right) - V_{\theta}\left( x \right) \right)^{2} \right\rbrack$

其中 $\mathbb{E}_{x\sim\pi}$ 表示由策略 $\pi$ 所采样而得的状态上的期望。

为了使误差最小化，采用梯度下降法，对误差求负导数

$\frac{\partial E_{\theta}}{\partial\theta} = \mathbb{E}_{x\sim\pi}\left\lbrack 2\left( V^{\pi}\left( x \right) - V_{\theta}\left( x \right) \right)\frac{\partial V_{\theta}\left( x \right)}{\partial\theta} \right\rbrack = \mathbb{E}_{x\sim\pi}\left\lbrack 2\left( V^{\pi}\left( x \right) - V_{\theta}\left( x \right) \right)x \right\rbrack$

可得到对应单样本的更新规则

$\theta = \theta + \alpha\left( V^{\pi}\left( x \right) - V_{\theta}\left( x \right) \right)x$

基于 $V^{\pi}\left( x \right) = r + \gamma V^{\pi}\left( x^{'} \right)$ 用当前估计的值函数代替真实值函数，即

$\theta = \theta + \alpha V_{\theta}\left( r + \gamma V_{\theta}\left( x^{'} \right) - V_{\theta}\left( x \right) \right)x = \theta + \alpha\left( r + \gamma x^{'} - \theta^{T}x \right)x$

其中 $x^{'}$ 是下一时刻的状态
在这里插入图片描述

16.6 模仿学习

16.6.1 直接模仿学习

直接模仿学习：直接模仿人类专家的状态-动作对可环境多步决策。

假定获得一批人类专家的决策轨迹数据 $\left\{ \tau_{1},\tau_{2},\ldots,\tau_{m} \right\}$ ，每条轨迹包含状态和动作序列

$\tau_{i} = \left\langle s_{1}^{i},a_{1}^{i},s_{2}^{i},a_{2}^{i},\ldots,s_{n_{i} + 1}^{i} \right\rangle$

其中 $n_{i}$ 为第 $i$ 条轨迹中的转移次数。

将所有轨迹上的所有状态-动作对抽取，构造出一个新的数据集合

$\left\{ \left( s_{1},a_{1} \right),\left( s_{2},a_{2} \right),\ldots,\left( s_{\sum_{i = 1}^{m}n_{i}},a_{\sum_{i = 1}^{m}n_{i}} \right) \right\}$

然后对这个新构造出的数据集合D使用分类或回归算法即可学得策略模型。学得的这个策略模型可作为机器进行强化学习的初始策略，再通过强化学习方法基于环境反馈进行改进，从而获得更好的策略。

16.6.2 逆强化学习

寻找某种奖赏函数使得范例数据是最优的，然后即可使用这个奖赏函数来训练强化学习策略。

假设奖赏函数能表达为状态特征的线性函数，即 $R\left( x \right) = \omega^{T}x$ 。于是策略 $\pi$ 的累积奖赏为

$\rho^{\pi} = \mathbb{E}\left\lbrack \sum_{t = 0}^{+ \infty}{\gamma^{t}R\left( x_{t} \right)\left| \pi \right.\ } \right\rbrack\mathbb{= E}\left\lbrack \sum_{t = 0}^{+ \infty}{\gamma^{t}\omega^{T}x_{t}\left| \pi \right.\ } \right\rbrack = \omega^{T}\mathbb{E}\left\lbrack \sum_{t = 0}^{+ \infty}{\gamma^{t}x_{t}\left| \pi \right.\ } \right\rbrack$

即状态向量加权和的期望与系数 $\omega$ 的内积。

将状态向量的期望 $\mathbb{E}\left\lbrack \sum_{t = 0}^{+ \infty}{\gamma^{t}x_{t}\left| \pi \right.\ } \right\rbrack$ 简写为 ${\overset{\overline{}}{x}}^{\pi}$ ,将每条范例轨迹上的状态加权求和再平均，记为 ${\overset{\overline{}}{x}}^{*}$ 。对于最优奖赏函数 $R\left( x \right) = \omega^{*T}x$ 和任意其他策略产生的 ${\overset{\overline{}}{x}}^{\pi}$ ，有

$\omega^{*T}{\overset{\overline{}}{x}}^{*} - \omega^{*T}{\overset{\overline{}}{x}}^{\pi} = \omega^{*T}\left( {\overset{\overline{}}{x}}^{*} - {\overset{\overline{}}{x}}^{\pi} \right) \geq 0$

若能对所有策略计算出 $\left( {\overset{\overline{}}{x}}^{*} - {\overset{\overline{}}{x}}^{\pi} \right)$ ，即可解出：
在这里插入图片描述

CharlesVan

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第16章强化学习

第16章强化学习16.1 任务与奖赏强化学习任务通常用马尔可夫决策过程(Markov Decision Process,MDP)来描述：及其处于缓解E中，状态空间为X，其中每个状态x∈Xx \inXx∈X是机器感知到缓解的描述，机器能采取的动作构成了动作空间A，若某个动作a∈Aa \inAa∈A作用在当前状态xxx上，则潜在的转移函数PPP将使得环境从当前状态按某种概率转移到另一种状态。...
复制链接

扫一扫