深度强化学习 _Actor-Critic 王树森课程笔记

最新推荐文章于 2024-06-04 20:21:15 发布

淀粉爱好者

最新推荐文章于 2024-06-04 20:21:15 发布

阅读量806

点赞数 5

文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/weixin_44005728/article/details/124841968

版权

Actor-Critic Method

一、 Value Netwok and Policy Network
- 1. Policy network (Actor): $\pi(a|s;\bm\theta)$
- 2. Value network (Critic): $q(s,a;\textbf{w})$
二、训练神经网络
- 1. 用TD算法更新价值网络
- 2. 用策略梯度算法更新策略网络
三、 Actor-Critic Method

Actor：策略网络，用来控制agent运动，可以看作运动员

Critic：价值网络，用来给动作打分，可以看作裁判

学习的目的：让运动员的分数越来越高，并让裁判的打分越来越精准

在这里插入图片描述

一、 Value Netwok and Policy Network

State-value function：状态价值函数

$V_\pi(s)=\sum_a\pi(a|s)\cdot Q_\pi (s,a) {\color{d44d37}\approx\sum_a\pi(a|s;\bm\theta)\cdot q(s,a;\textbf{w})}$

策略函数 $\pi(a|s)$ ：用来计算动作的概率值从而控制agent做运动。

动作价值函数 $Q_\pi(s,a)$ ：用来评价动作的好坏程度。

💡 $\pi$ 和 $Q_\pi$ 均未知
用两个神经网络分别近似这两个函数，用Actor-Critic方法同时学习这两个神经网络。

Policy network (actor):

用神经网络 $\pi(a|s;\bm\theta)$ 近似策略函数 $\pi(a|s)$ ；
$\bm\theta$ ：神经网络参数；
用策略网络控制agent做运动，即决策由策略网络做出。

Value network (critic):

用神经网络 $q(s,a;\textbf{w})$ 近似动作价值函数 $Q_\pi(s,a)$ ；
$\textbf{w}$ ：神经网络参数；
不控制agent运动，给动作打分

1. Policy network (Actor): $\pi(a|s;\bm\theta)$

在这里插入图片描述

输入：状态 $s$ ，即当前屏幕显示的画面或最近几帧的画面；
一个或几个卷积层把画面变成特征向量；
全连接层把特征向量映射到一个三维向量（因为有三个动作，所以维度是三）；
用softmax激活函数输出概率分布，输出的是三维向量，每一个元素对应一个动作，值为动作的概率。

💡 policy函数是概率密度函数，需满足 $\sum_{a\in A}\pi(a|s;\bm{\theta})=1$ ；
使用softmax函数：让输出值都是正数且加和等于一。

2. Value network (Critic): $q(s,a;\textbf{w})$

在这里插入图片描述

输入状态 $s$ 和动作 $a$ ；
a. 如果动作是离散的，可以用one-hot coding来表示动作，如向左为[1, 0, 0]，向右为[0, 1, 0]，向上为[0, 0, 1]；
分别用卷积层和全连接层从输入中提取特征，得到特征向量；
将这两个特征向量拼接起来，得到更高的特征向量；
最后用全连接层输出一个实数，这个实数就是Critic的打分，说明在状态 $s$ 下做出动作 $a$ 是好还是坏。

价值网络和策略网络可以共享卷积层参数，也可以各自独立。

二、训练神经网络

💡 Actor-Critic Method：同时训练策略网络和价值网络

用 $V(s;\bm\theta,\textbf{w})$ 近似状态价值函数（用策略网络近似策略函数，用价值网络近似动作价值函数）
$V(s;\bm\theta,\textbf{w})=\sum_a\pi(a|s;\bm\theta)\cdot q(s,a;\textbf{w})$

函数 $V(s;\bm\theta,\textbf{w})$ 是对策略 $\pi$ 和状态 $s$ 的评价。

训练：更新神经网络参数 $\bm\theta$ 和 $\textbf{w}$

更新策略网络 $\pi(a|s;\bm\theta)$ 的参数 $\bm\theta$ ：为了增加函数 $V(s;\bm\theta,\textbf{w})$ 的值。
- 学习策略网络 $\pi(a|s;\bm\theta)$ 的时候，由价值网络 $q(s,a;\textbf{w})$ 提供监督；
- 运动员（策略网络）靠裁判（价值网络）打的分数来改进自己的技术。
更新价值网络 $q(s,a;\textbf{w})$ 的参数 $\textbf{w}$ ：为了让 $q(s,a;\textbf{w})$ 的打分更精准，以更好地估计未来得到的奖励总和。
- 学习 $q(s,a;\textbf{w})$ 的时候，监督信号来自环境给的奖励reward；
- 裁判（价值网络）一开始没有判断能力打分靠瞎猜，但会逐渐改进自己的水平使其接近真实打分情况。

训练步骤

观测到状态 $s_t$ ；
将 $s_t$ 作为输入，用策略网络 $\pi$ 计算概率分布，随机抽样得到动作 $a_t\sim\pi(\cdot|s_t;\bm\theta_t)$ ；
agent执行动作 $a_t$ ，环境更新状态 $s_{t+1}$ 并给出奖励 $r_t$ ；
有了奖励 $r_t$ ，用TD算法更新价值网络的参数 $\textbf{w}$ ，即让裁判更准确；
用策略梯度算法Policy gradient更新策略网络的参数 $\bm\theta$ ，即让运动员技术更好（更新策略网络的参数要用到裁判对 $a_t$ 的打分）

1. 用TD算法更新价值网络

用价值网络分别给动作 $a_t$ 和动作 $a_{t+1}$ 打分：计算 $q(s_t,a_t;\textbf{w}_t)$ 和 $q(s_{t+1},a_{t+1};\textbf{w}_t)$ ；
- 动作是根据策略网络 $\pi$ 随机抽样得到的。
计算TD target： $y_t=r_t+\gamma\cdot q(s_{t+1},a_{t+1};\textbf{w})$ ；
- $\gamma$ ：折扣率；
- TD target $y_t$ 比预测值 $q(s_t,a_t;\textbf{w}_t)$ 更接近真实值。
损失函数Loss： $L(\textbf{w})=\frac{1}{2}[q(s_t,a_t;\textbf{w}_t)-y_t]^2$ ；
- 损失函数鼓励 $q(s_t,a_t,\textbf{w}_t)$ 尽量接近 $y_t$ 。
梯度下降： $\textbf{w}_{t+1}=\textbf{w}_t-\alpha\cdot \frac{\partial L(\textbf{w})}{\partial\textbf{w}}|_{\textbf{w}=\textbf{w}_t}$ ；
- $\alpha$ ：学习率；
- 梯度下降让损失函数 $L(\textbf{w})$ 变小。

2. 用策略梯度算法更新策略网络

💡 状态价值函数 $V(s;\bm\theta,\textbf{w})=\sum_a\pi(a|s;\bm\theta)\cdot q(s,a;\textbf{w})$ 相当于运动员所有动作的平均分。

策略梯度：函数 $V(s;\bm\theta,\textbf{w})$ 关于参数 $\bm\theta$ 的导数；
$\textbf{g}(a,\bm\theta)=\frac{\partial\log\pi(a|s;\bm\theta)}{\partial\bm\theta}\cdot q(s_t,a;\textbf{w})$ ；
- $q(s_t,a;\textbf{w})$ 为裁判对动作的打分。
$\frac{\partial V(s;\bm\theta,\textbf{w}_t)}{\partial\bm\theta}=\Bbb E_{\color{d44d37}A}[\textbf{g}({\color{d44d37}A},\bm\theta)]$ ，用蒙特卡洛近似期望求梯度；
- 把策略网络 $\pi(\cdot |s_t;\bm\theta_t)$ 作为概率密度函数，用它随机抽样得到一个动作 ${\color{d44c47}a}$ ；
- 由于 ${\color{d44c47}{a}}$ 是根据概率密度函数 $\pi$ 随机抽样得到的，所以 $\textbf{g}({\color {d44c47}{a}},\bm\theta)$ 是策略梯度 $\frac{\partial V(s;\bm\theta)}{\partial\bm\theta}$ 的无偏估计；
- 由于 $\textbf{g}({\color {d44c47}{a}},\bm\theta)$ 是策略梯度 $\frac{\partial V(s;\bm\theta,\textbf{w}_t)}{\partial\bm\theta}$ 的无偏估计，可以用 $\textbf{g}({\color {d44c47}{a}},\bm\theta)$ 来近似策略梯度 $\frac{\partial V(s;\bm\theta,\textbf{w}_t)}{\partial\bm\theta}$ （蒙特卡洛近似）。
做梯度上升更新策略网络参数： $\bm\theta_{t+1}=\bm\theta_t+\beta\cdot \textbf{g}({\color{d44c47}a},\bm\theta_t)$ ；
- $\beta$ ：学习率；
- 由于梯度是函数 $V(s;\bm\theta,\textbf{w})$ 关于 $\bm\theta$ 的导数，梯度上升可以增加 $V$ 函数的值。

三、 Actor-Critic Method

观测到状态 $s_t$ ，用策略网络 $\pi$ 计算概率分布，随机抽样得到动作 $a_t\sim\pi(\cdot|s_t;\bm\theta_t)$ ；
agent执行动作 $a_t$ ，环境更新状态 $s_{t+1}$ 并给出奖励 $r_t$ ；
将新状态 $s_{t+1}$ 作为输入，用策略网络 $\pi$ 计算新的概率分布，随机抽样得到动作 $\tilde{a}_{t+1}\sim\pi(\cdot|s_{t+1};\bm\theta_t)$ ；
a. $\tilde a_{t+1}$ 为假象动作，只用于计算 $q$ 值，agent并不会真正执行该动作；
b. 算法的每一轮循环里agent只会做一次动作。
计算两次价值网络的输出，输入分别为 $s_t,a_t$ 和 $s_{t+1},\tilde a_{t+1}$ ，输出裁判打分 $q_t=q(s_t,a_t;\textbf{w}_t)$ 和 $q_{t+1}=q(s_{t+1},\tilde a_{t+1};\textbf{w}_t)$ ；
计算TD error： $\delta_t=\underbrace{q_t}_{\text{预测}}-\underbrace{(r_t+\gamma\cdot q_{t+1})}_{\text{TD target}}$ ；
对价值网络关于参数 $\textbf w$ 求导，得到价值网络关于参数 $\textbf w$ 的梯度： $\textbf d_{w,t}=\frac{\partial q(s_t,a_t;\textbf{w})}{\partial\textbf w}|_{\textbf w=\textbf w_t}$ ；
a. 梯度 $\textbf d_{w,t}$ 的形状与参数 $\textbf w$ 完全一样，是同样大小的矩阵或张量。
用TD算法更新价值网络，让裁判打分更精准： $\textbf w_{t+1}=\textbf w_t-\alpha\cdot\delta_t\cdot\textbf d_{w,t}$ ；
对策略网络 $\pi$ 关于参数 $\bm\theta$ 求导，得到 $\log\pi(a_t|s_t;\bm\theta)$ 关于参数 $\bm\theta$ 的梯度： $\textbf d_{\theta,t}=\frac{\partial\log\pi(a_t|s_t;\bm\theta)}{\partial\bm\theta}|_{\bm\theta=\bm\theta_t}$ ；
a. 梯度 $\textbf d_{\theta,t}$ 的形状与参数 $\bm\theta$ 完全一样，是同样大小的矩阵或张量。
用梯度上升更新策略网络，让运动员的平均分更高（标准算法）： $\bm\theta_{t+1}=\bm\theta_t+\beta\cdot q_t\cdot\textbf d_{\theta,t}$ 。
a. 有些书和论文使用 $\delta_t$ 而非 $q_t$ ；
b. Policy gradient with baseline： $\bm\theta_{t+1}=\bm\theta_t+\beta\cdot {\color{d44d37}\delta_t}\cdot\textbf d_{\theta,t}$ ；这里的baseline是TD target： $r_t+\gamma\cdot q_{t+1}$ ；
c. 用好的baseline可以降低方差，让算法收敛更快，baseline可以是任何接近 $q_t$ 的数，但不能是动作 $a_t$ 的函数