A Theoretical Analysis of DQN

这是一篇笔记文。


原文链接:Fan, Jianqing, et al. “A theoretical analysis of deep Q-learning.” Learning for Dynamics and Control. PMLR, 2020.

这篇文章对于一个slight simplification DQN做了分析(Under mild assumptions)


this paper 主要重点在于DQN的两个点:分别是experience replay and the target network

  1. approximating the action-value function often leads to instability
  2. the target network to obtain an unbiased estimator of the mean-squared Bellman error used in training the Q-network.
    (但目标网络在每次迭代过程中与Q网络同步的话,将导致耦合,这点TD3通过延迟更新已经解决)

主要通过这两点分别解释了经验回放与目标网络优化的必要性。


补充:

  1. 经验回放自不必多说,将五元组按时序放入经验池中分别采用随机抽样/优先排序的方法再送入网络去拟合动作价值函数Q,能够得到较好的稳定性。
    (The intuition behind experience replay is to achieve stability by breaking the temporal dependency among the observations used in training the deep neural network.)

  2. 目标函数可以被拆成 mean-squared Bellman error (MSBE) 和 variance 两个部分,当没有 采用target network更新时,MSBE与方差这两部分都与待优化的参数有关,因此优化目标函数不等同于仅优化 MSBE。在有 target network 的时候,第二项就和待优化的参数无关了,因此问题就变成了优化 MSBE。、这某种程度上解释了 target network 的必要性。


FQI:Fitted Q-iteration
可以看作是对replay buffer和target network的简化版本,主要是通过对神经网络拟合FQI分析,从而得到收敛性证明。

  1. Assumption:
    在这里插入图片描述
    将 replay buffer 用一个固定的分布代替了,直接回避掉了RL中的探索问题,比如说Agent从初始分布出发,不管采用哪种策略,都不会过多的观测到特定状态

  2. Theorem:
    从误差的角度来分析,Traget network采用何种频率更新
    在这里插入图片描述

  3. proof sketch
    在这里插入图片描述
    K为迭代次数,
    在这里插入图片描述
    为前K次的最大损失值;
    式中第一项会随着n -> ∞而变为0,第二项随着迭代次数的增加而指数衰减,重要性不高。
    在这里插入图片描述

    第一个式子表示用relu线性函数拟合偏差bias
    第二、三式反应了估计的偏差Variance

    (结论:the statistical error characterizes the bias and variance that arise from approximating the action-value function using neural network, while the algorithmic error geometrically decays to zero as the number of iteration goes to infinity)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值