Reinforcement Learning（一）

最新推荐文章于 2024-07-26 13:24:37 发布

RochelimitYX

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量111

点赞数

分类专栏：强化学习深度学习文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/weixin_53504082/article/details/134151246

版权

强化学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

RL的使用情境：

当使用Supervised Learing时需要大量的标注，而且收集这些labels很困难的时候，甚至说labeling本身就很困难；
正确答案甚至连人类都不知道时什么的时候

What is RL？

强化学习目的：智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得累积奖励
强化学习流程：智能体在环境中获取某个状态 $s_t$ 后，它会利用该状态输出一个动作 $a_t$ ，这个动作也称为决策（decision）。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态 $s_{t+1}$ 以及当前这个动作带来的奖励 $r_t$
在这里插入图片描述

RL基本概念

智能体（Agent）：Machine/decision maker，在环境中通过传感器感知环境，并能够通过效应器+执行器自主地作用于该环境

环境（environment）：除智能体以外的实体

状态/观测（observation）：某一时刻智能体感知的信息，可以理解为智能体对环境的一种理解和编码，对当前时刻环境的概括，通常包含了智能体所采取决策产生对环境影响的信息

状态空间（state space）：所有可能存在状态构成的集合

动作（action）：智能体（基于当前状态）可以执行的操作

动作空间（state space）：所有可能动作构成的集合

奖励（reward）：在智能体执行一个动作之后，环境回馈给智能体的即时信号，用于评估动作的好坏

状态转移（state transition）：智能体从当前 $t$ 时刻的状态 $s_t$ 转移到下一个时刻的状态 $s_{t+1}$ ,数学描述：
$p_t(s_{t+1}|s_t,a_t)=p_t(S_{t+1}=s_{t+1}|S_t=s_t,A_t=a_t)$
注：表示在当前状态 $s_t$ ，智能体执行动作 $a_t$ ,环境的状态变为 $s_{t+1}$ 的概率；在 $t + 1$ 时刻状态随机变量 $S_{t+1}$ 的条件概率分布

策略（policy）：从状态集到动作集的映射，根据观测到的状态，如何做出决策，从动作空间中选择一个动作；假设：策略仅仅依赖于当前状态，而不依赖于历史状态，分为随机策略 $\pi(a|s)$ 和确定性策略

轨迹（trajectory）：一个回合中，环境输出的状态 $s$ 和奖励 $r$ 与智能体输出的动作 $a$ 全部组合起来，就是一个轨迹，即
$\tau=\left\{s_{1}, a_{1}, r_{1},s_{2}, a_{2},r_{2}, \cdots, s_{t}\right\}$
回报（return）：从当前时刻开始到本回合结束的所有奖励的总和，累计奖励/随机变量 $U_t$ 代表 $t$ 时刻的回报 $U_t=R_t+R_{t+1}+R_{t+2}\cdots+R_n$

折扣回报：给未来的奖励做折扣； $U_t$ 代表 $t$ 时刻的回报 $U_t=R_t+\gamma R_{t+1}+\gamma^2R_{t+2}\cdots+R_n,\gamma \in[0,1]$

RL机器学习范式

RL作为机器学习的一部分，首先给出Machining Learing框架下的强化学习范式：
$M L 范式：$
$训练数据集：D=\overset{\text{}}{% \left\{x_i,y_i \right\}% }% \underset{\text{i=1...n}}{}%$
$学习机：f_{w}(x);f \in \Phi,\Phi为决策函数集$
$损失函数：\min\limits_{w}L(D_{train};f_{w})+p(w)$
$优化算法:Gradient\, Descent,w_{t+1}=w_t-\eta \nabla_{w} f(x,w_t),梯度引导更新参数$

$R L 范式：$
$训练数据集：D=\overset{\text{}}{% \left\{s_t,a_t \right\} \,\,A_t% }% \underset{\text{t=1...N}}{}%$
$学习机：\pi_\theta(a|s)$ 或者Q*
$损失函数：\min\limits_{\theta}L=\sum_{i=1}^{N}A_ie_i;A_t=\sum_{n=t}^{N}\gamma^{n-t}r_i$
$优化算法:,\theta_{t+1}=\theta_t+\eta \nabla_{\theta} E[R_\theta],策略梯度引导更新参数$

用Nerual Network来拟合策略函数 $\pi_\theta(a|s)$

机器学习中的分类问题：
在这里插入图片描述如图所示，如果要数据集有三个类别，则在最后一层接入softmax激活函数

探索与利用的平衡

随机性的两个来源：策略函数和状态转移函数

动作的随机性

动作的随机性来源于随机决策；给定当前状态 $s$ ，策略函数 $\pi(a|s)$ 会算出动作空间中每个动作 $a$ 的概率值，智能体执行的动作是随机抽样的结果–轮盘赌方法
在这里插入图片描述

状态的随机性

状态的随机性来自于状态转移函数，即使当状态 $s$ 和动作 $a$ 被确定下来，下一个状态仍然是不确定的；环境用状态转移函数 $p(s_{t+1}|s_t,a_t)$ 计算出所有可能的状态的概率，然后做随机抽样，从而得到新的状态
在这里插入图片描述
强化学习流程：
在状态 $s_t$ 的观测下，通过策略函数 $\pi_{\theta}(a|s)$ 得到动作空间中每个动作的概率，使用轮盘赌的方式随机抽样得到 $a_t$ ,智能体执行动作 $a_t$ ,环境输入智能体的动作 $a_t$ 和 $s_t$ ，用状态转移函数 $p(s_{t+1}|s_t,a_t)$ 计算所有可能状态的概率,然后做轮盘赌的随机抽样，进入下一个状态，如此循环往复，如图所示：
在这里插入图片描述

优化算法–策略梯度

在一场游戏里面，我们把环境输出的 $s$ 与演员输出的动作 $a$ 全部组合起来，就是一个轨迹，即

图

$\tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$

给定演员的参数 $\theta$ ，我们可以计算某个轨迹 $\tau$ 发生的概率为
$\begin{aligned} p_{\theta}(\tau) &=p\left(s_{1}\right) p_{\theta}\left(a_{1} | s_{1}\right) p\left(s_{2} | s_{1}, a_{1}\right) p_{\theta}\left(a_{2} | s_{2}\right) p\left(s_{3} | s_{2}, a_{2}\right) \cdots \\ &=p\left(s_{1}\right) \prod_{t=1}^{T} p_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} | s_{t}, a_{t}\right) \end{aligned}$

我们先计算环境输出 $s_1$ 的概率 $p(s_1)$ ，再计算根据 $s_1$ 执行 $a_1$ 的概率 $p_{\theta}\left(a_{1} | s_{1}\right)$ ， $p_{\theta}\left(a_{1} | s_{1}\right)$ 是由策略里面的网络参数 $\theta$ 所决定的。策略网络的输出是一个分布，演员根据这个分布进行采样，决定实际要采取的动作。接下来环境根据 $a_1$ 与 $s_1$ 产生 $s_2$ ，因为 $s_2$ 与 $s_1$ 是有关系的，所以给定上一个状态 $s_1$ 和演员采取的动作 $a_1$ ，就会产生 $s_2$ 。环境在决定输出新的状态的时候有概率。
但实际上 $R(\tau)$ 并不只是一个标量（scalar），它是一个随机变量，因为演员在给定同样的状态下会采取什么样的动作，这是有随机性的。环境在给定同样的观测时要采取什么样的动作，要产生什么样的观测，本身也是有随机性的，所以 $R(\tau)$ 是一个随机变量。我们能够计算的是 $R(\tau)$ 的期望值。给定某一组参数 $\theta$ ，我们可计算 $r_{\theta}$ 的期望值为
$\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=\frac{1}{N}\sum_{i=1}^{N}R(\tau^i);\tau难以穷举，采样N个回合\tau^1,....\tau^N$
我们要穷举所有可能的轨迹 $\tau$ ，每一个轨迹 $\tau$ 都有一个概率。
$\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=\mathbb{E}_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$
从分布 $p_{\theta}(\tau)$ 采样一个轨迹 $\tau$ ，计算 $R(\tau)$ 的期望值，就是期望奖励（expected reward）。我们要最大化期望奖励。
因为我们要让奖励越大越好，所以可以使用梯度上升来最大化期望奖励。要进行梯度上升，我们先要计算期望奖励 $\bar{R}_{\theta}$ 的梯度。我们对 $\bar{R}_{\theta}$ 做梯度运算
$\nabla \bar{R}_{\theta}=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)$
其中，只有 $p_{\theta}(\tau)$ 与 $\theta$ 有关。
我们可以对 $\nabla p_{\theta}(\tau)$ 使用式(4.1)，得到 $\nabla p_{\theta}(\tau)=p_{\theta}(\tau) \nabla \log p_{\theta}(\tau)$ 。
$\nabla f(x)=f(x)\nabla \log f(x)$
接下来，我们可得
$\frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}= \nabla \log p_{\theta}(\tau)$
我们对 $\tau$ 进行求和，把 $R(\tau)$ 和 $\log p_{\theta}(\tau)$ 这两项使用 $p_{\theta}(\tau)$ 进行加权，既然使用 $p_{\theta}(\tau)$ 进行加权，它们就可以被写成期望的形式。也就是我们从 $p_{\theta}(\tau)$ 这个分布里面采样 $\tau$ ，去计算 $R(\tau)$ 乘 $\nabla\log p_{\theta}(\tau)$ ，对所有可能的 $\tau$ 进行求和，就是期望的值（expected value）。
$\begin{aligned} \nabla \bar{R}_{\theta}&=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)\\&=\sum_{\tau} R(\tau) p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)} \\&= \sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau) \\ &=\mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] \end{aligned}$
实际上期望值 $\mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right]$ 无法计算，所以我们用采样的方式采样 $N$ 个 $\tau$ 并计算每一个的值，把每一个的值加起来，就可以得到梯度，即
$\begin{aligned} \mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \end{aligned}$
而
$\begin{aligned} \nabla \log p_{\theta}(\tau) &= \nabla \left(\log p(s_1)+\sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)+ \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t) \right) \\ &= \nabla \log p(s_1)+ \nabla \sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)+ \nabla \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t) \\ &=\nabla \sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)\\ &=\sum_{t=1}^{T} \nabla\log p_{\theta}(a_t|s_t) \end{aligned}$
注意， $p(s_1)$ 和 $p(s_{t+1}|s_t,a_t)$ 来自环境， $p_\theta(a_t|s_t)$ 来自智能体。 $p(s_1)$ 和 $p(s_{t+1}|s_t,a_t)$ 由环境决定，与 $\theta$ 无关，因此 $\nabla \log p(s_1)=0$ ， $\nabla \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t)=0$ 。

$\begin{aligned} \nabla \bar{R}_{\theta}&=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)\\&=\sum_{\tau} R(\tau) p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)} \\&= \sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau) \\ &=\mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right]\\ &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \end{aligned}$
梯度上升：
$\theta$ 加上梯度 $\nabla \bar{R}_{\theta}$ ，当然我们要有一个学习率 $\eta$ ，即
$\theta \leftarrow \theta+\eta \nabla \bar{R}_{\theta}$

$\nabla \bar{R}_{\theta}=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)$