DQN（Deep Q-Learning）中的高估问题以及DQN的解决策略

不会爬树的小研

已于 2023-02-04 18:41:41 修改

阅读量1k

点赞数 2

文章标签：人工智能深度学习神经网络

于 2023-02-04 18:31:34 首次发布

本文链接：https://blog.csdn.net/weixin_51602120/article/details/128883464

版权

_学习记录…有错误感谢指出

首先介绍BootStrapping概念：
直译： 通过拉自己的鞋带把自己举起来
机器学习内内涵： 在更新过程中，用自己估算的值去更新自己，也就是利用自己预测的结果更新自己。

原始DQN更新方式：

从replay buffer取出一个sample， $s_t,a_t,r_t,s_{t+1})$ 更新DQN的参数w
- TD Target: ${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a;w).$
- TD error: ${\delta _t} = Q({s_t},{a_t};w) - {{\rm{y}}_t}.$
- SGD: $\leftarrow w - \alpha ·{(Q({s_t},{a_t};w) - {{\rm{y}}_t})}·\frac{{\partial Q({s_t},{a_t};w)}}{{\partial w}}.$

按照上面的步骤，TD Target是DQN预测的值，而在SGD更新参数w时，使用TD Target更新w，因此是使用自己的预测结果更新自己，即boot strapping。

DQN的网络结构
DQN通过选择最大的action value对应的action来控制agent的移动，即选择动作 ${a_t} = \mathop {\arg \max }\limits_a Q({s_t},a;w)$

假设真实的action value值为：
${Q^*}(s,{a^1}) = 100,{Q^*}(s,{a^2}) = 120,{Q^*}(s,{a^3}) = 150$
应该选择 $a^3$
均匀的高估：
$Q(s,{a^i}) = {Q^*}(s,{a^1}) + 100$
仍然选择 $a^3$ ，均匀高估不会带来action的误选问题
假设DQN预测的action value值为：
$Q(s,{a^1}) = 180,Q(s,{a^2}) = 130,Q(s,{a^3}) = 170$

由于DQN为非均匀高估问题，因此每个Q(s,a)高估的程度不一，上述例子中导致 $a^1$ 对应的action value值最大，所以最终错误地选择了 $a^1$ 。

为什么会有高估问题?

原因1： BootStrapping会不断传播高估问题
- 用自己的预测结果更新自己，预测结果偏大了，更新参数后会使DQN输出的预测结果进一步偏大，形成正反馈。
原因2：由TD Target中的最大化引起
- TD Target: ${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a;w).$
- 由于DQN神经网络的预测结果一定存在偏差，所以预测的 $\max Q$ 一定大于真实的 $\max Q$
为什么是非均匀的高估呢？
- DQN在训练过程中，是从replay buffer中随机选取样本用于更新参数，因此对于不同的Q(s,a)所更新的次数与程度是不同的，因此DQN是非均匀的高估问题。

引入两个神经网络 target network: $Q(s,a;w_T)$ 和 main network: $Q (s, a; w)$
- 两个神经网络具有相同的结构
- 两个神经网络具有不同的参数 $w_T \ne w$
使用main network $Q (s, a; w)$ 控制agent，以及收集经验存放于replay buffer：
${(s_t,a_t,r_t,s_{t+1}\}$
使用target network $Q(s,a;w_T)$ 计算 TD Target，用于更新main network，即参数 $w$ ：
${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a;w_T).$

BootStarpping： 以前使用DQN计算TD Target，并用于更新DQN自己
改进后： 利用Target network计算TD Target，更新的是main network，避免了BootStarpping，从而缓解高估问题。

流程总结：

从replay buffer取出一个sample， $s_t,a_t,r_t,s_{t+1})$ 更新DQN的参数w
- TD Target: ${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a;w_T).$
- TD error: ${\delta _t} = Q({s_t},{a_t};w) - {{\rm{y}}_t}.$
- SGD: $\leftarrow w - \alpha ·{(Q({s_t},{a_t};w) - {{\rm{y}}_t})}·\frac{{\partial Q({s_t},{a_t};w)}}{{\partial w}}.$
- 经过一定的步数才更新target network： $w_T = w$

TD Target: ${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a;w).$

①将原始DQN求最大化的 $max\ Q$ 分为两步：

选择最大估计值对应的action：
${a^*} = \mathop {\arg \max }\limits_a Q({s_{t + 1}},a;w).$
选择上面action对应的Q值计算TD Target：
${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},{a^*};w).$

②引入Target Network后变为：

选择最大估计值对应的action：
${a^*} = \mathop {\arg \max }\limits_a Q({s_{t + 1}},a;w_T).$
选择上面action对应的Q值计算TD Target：
${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},{a^*};w_T).$

③引入Double DQN后变为：

选择最大估计值对应的action：
${a^*} = \mathop {\arg \max }\limits_a Q({s_{t + 1}},a;w).$
选择上面action对应的Q值计算TD Target：
${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},{a^*};w_T).$
Double DQN是三者中表现最好的，虽然仍存在一些高估问题。

为什么引入Double DQN可以缓解最大化带来的问题？

使用main network选择action： ${a^*} = \mathop {\arg \max }\limits_a Q({s_{t + 1}},a;w).$
使用target network计算Q值： ${{\rm{y}}_t} = {r_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},{a^*};w_T).$
由于下式一定成立：
$Q({s_{t + 1}},{a^*};{w_T}) \le \mathop {\max }\limits_a Q({s_{t + 1}},a;{w_T})$
- 算式左边：main network选择的action，target network计算的Q值，对应③
- 算式右边：target network选择的action并计算Q值，对应②
- 因此证明了Double DQN上面三种情况中最优。

引起高估问题的原因主要有两个，分别为TD Target中的最大化和仅用一个神经网络所带来的BootStrapping。

Reference:
https://youtu.be/vmkRMvhCW5c

关注