强化学习 DQN算法

最新推荐文章于 2024-08-11 18:21:52 发布

anzrs

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量2.6k

点赞数 3

文章标签：算法机器学习人工智能强化学习

原文链接：https://wanjun0511.github.io/2017/11/05/DQN/#more

版权

一：概述

强化学习算法可以分为三大类：（1）value based,（2） policy based 和（3）actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。

说到DQN中有值函数网络，这里简单介绍一下强化学习中的一个概念，叫值函数近似。

在基本概念这篇中有讲过，一个state action pair (s,a)对应一个值函数Q(s,a)。理论上对于任意的(s,a)我们都可以由公式求出它的值函数，即用一个查询表lookup table来表示值函数。但是当state或action的个数过多时，分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数：

Q(s,a,w) ≈ Qπ(s,a)

这样，对于未出现的state action也可以估计值函数。
至于近似函数，DQN中用的是神经网络，当然如果环境比较简单的话用线性函数来近似也是可以的。

二：算法原理

上面说过DQN使用神经网络来近似值函数，即神经网络的输入是state s,输出是Q(s,a), ∀a∈A (action space)。

通过神经网络计算出值函数后，DQN使用ϵ−greedy策略来输出action（第四部分中介绍）。值函数网络与ϵ−greedy策略之间的联系是这样的：首先环境会给出一个obs，智能体根据值函数网络得到关于这个obs的所有Q(s,a)，然后利用ϵ−greedy选择action并做出决策，环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去，直到我们训练出了一个好的值函数网络。

那么每次迭代如何更新神经网络的参数呢？

与机器学习类似，首先会定义一个loss function，然后使用梯度下降GD来更新参数。接下来首先介绍DQN的loss function，它与Q-Learning的非常类似，只是添加了一个target Q function。然后会介绍除此之外，DQN在Q-Learning上所做的改进。

1、Loss Function

$\bg_white \large L(w)=E[(R+r*max_{a'}Q(s',a';w^-)-Q(s,a;w))^2] {\color{Red} }$

这个公式表面上看起来很复杂，实际上很好理解，它就是一个残差模型，和我们平常见的最小二乘法很类似，真实值与预测值之间的差的平方。预测值就是Q(s,a;ω)，它是神经网络的输出。“真实值”略微有一点复杂。

想象一下假如我们想求出(s,a)的真实值函数Q(s,a)。它表示我从state s开始出发，并采取action a的话，我所能得到的整体收益的期望值。一种可能的情况是，我们知道环境的模型。这在强化学习中也叫Model Based RL。即我们知道状态转移概率矩阵：当处于(s,a)时，下一个到达的状态可能是什么，并且到达每一个状态的概率是什么；我们还知道奖励函数：当处于(s,a)时，得到的立即回报的期望值是什么；另外还知道折扣因子。由此，我们便可以通过贝尔曼方程来求解值函数。这种情况下我们可能也并不需要神经网络近似值函数之类的，直接由策略迭代或值迭代便可以求出最优策略。具体方法可以看一下MDP。

另一种情况就是Model Free RL：不管有没有环境模型，反正我不用。那么在不知道环境模型的情况下如何求解值函数呢？答案就是采样。强化学习中有多种采样的方法，这里简单介绍一下：

(1) Monte Carlo

MC使用一个完整的episode去更新值函数，因此它需要从StSt到Terminal state的完整样本。
而且需要等到episode结束才能更新值函数。
由于有一条完整的样本，它可以计算出return，而值函数是return的期望，所以我们可以用return去更新值函数。

(2) Temporal Difference / SarSa

与MC不一样的是，TD不需要完整的样本，它只依赖下一个step的值函数，即它用V(St+1)V(St+1) 去更新 V(St)V(St) (TD), 或用 Q(St+1,at+1)Q(St+1,at+1) 去更新 Q(St,at)Q(St,at) (SarSa)
它不用等到episode结束，每走一步就可以更新值函数。
它不是用的真实的return值来更新值函数，而是用的一个估计值去更新另一个估计值的思想。

DQN

Off-policy是Q-Learning的特点，DQN中也延用了这一特点。而不同的是，Q-Learning中用来计算target和预测值的Q是同一个Q，也就是说使用了相同的神经网络。这样带来的一个问题就是，每次更新神经网络的时候，target也都会更新，这样会容易导致参数不收敛。回忆在有监督学习中，标签label都是固定的，不会随着参数的更新而改变。

因此DQN在原来的Q网络的基础上又引入了一个target Q网络，即用来计算target的网络。它和Q网络结构一样，初始的权重也一样，只是Q网络每次迭代都会更新，而target Q网络是每隔一段时间才会更新。DQN的target是 $R_{t+1}+r*max_{a'}Q(S_{t+1},a';w^-)$ 用 ω−表示它比Q网络的权重 ω更新得要慢一些。