强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

因为想申请 CSDN 博客认证需要一定的粉丝量,而我写了五年博客才 700 多粉丝,本文开启关注才可阅读全文,很抱歉影响您的阅读体验

  • 本文讨论两个主要内容
    1. 表格型 policy evaluation 方法中,使用 Bellman 算子/Bellman 最优算子进行迭代的收敛性
    2. 使用函数近似方法进行 policy evaluation 时的收敛性问题
  • 首先补充一点测度论中的定义,然后介绍压缩映射原理和不动点,最后证明收敛性。

1. 基础概念

1.1 测度论概念补充

  • 注:本人没有学过测度论,就临时看了一下概念,因此这一段不甚准确,具体请参考程士宏《测度论和概率论基础》
  • 测度论其实是概率论的基础,但是二者可以独立开来讲,本科阶段学习的概率论课程通过公理化定义回避了这些底层的内容,可一旦进入随机过程这些更深入的课程后,有些问题离开测度论是无法考虑的。测度论致力于在抽象空间建立类似实变函数中测度、积分和导数那样的分析系统,下面简单捋一下部分关键概念
    1. 空间:任给一个非空集合 X X X,称之为空间

    2. 集合 X X X 的子集称为集合,用大写字母 A , B , C . . . A,B,C... A,B,C... 表示

    3. 元素 X X X 的成员称为元素,用小写字母 x , y , z . . . x,y,z... x,y,z... 表示,元素可以被某个集合包含,如 x ∈ A x\in A xA

    4. 集合系:以空间 X X X 中一些集合为元素组成的集合称为 X X X 上的集合系,用花体字母 A , B , C . . . \mathscr{A,B,C...} A,B,C... 表示

    5. σ域/σ代数一种特殊的集合系 F \mathscr{F} F,满足以下性质

      1. X ∈ F X\in\mathscr{F} XF
      2. A ∈ F ⇒ A c ∈ F A\in\mathscr{F}\Rightarrow A^c\in\mathscr{F} AFAcF,其中 A c A^c Ac 是集合 A A A 的补集
      3. A n ∈ F , n = 1 , 2 , . . . ⇒ ⋃ n = 1 ∞ A n ∈ F A_n\in\mathscr{F},n=1,2,...\Rightarrow \bigcup_{n=1}^\infin A_n\in\mathscr{F} AnF,n=1,2,...n=1AnF

      就是说 σ \sigma σ 域上的集合关于集合的补和并封闭,是一种要求很强的集合系,下图表现了不同集合系从宽松到严格的顺序
      在这里插入图片描述
      我们最关注 σ \sigma σ 域,因为其性质允许我们建立测度

    6. 可测空间:非空集合 X X X 和其上的一个 σ \sigma σ 域放在一起组成可测空间 ( X , F ) (X,\mathscr{F}) (X,F)

    7. 生成σ域:由集合系 E \mathscr{E} E 生成的 σ σ σ S \mathscr{S} S,是包含 E \mathscr{E} E最小的 σ \sigma σ 域,满足

      1. S ⊃ E \mathscr{S}\supset\mathscr{E} SE
      2. 对任意 σ \sigma σ S ′ \mathscr{S}' S 都有 S ′ ⊃ E ⇒ S ′ ⊃ S \mathscr{S}'\supset\mathscr{E} \Rightarrow \mathscr{S}'\supset\mathscr{S} SESS

      这种由集合系生成的 σ \sigma σ 域记作 σ ( E ) \sigma(\mathscr{E}) σ(E)

    8. 映射:设 X X X Y Y Y 是任意给定的集合,若对每个 x ∈ X x\in X xX,存在唯一的 f ( x ) ∈ Y f(x)\in Y f(x)Y 与之对应, 则称 f f f 是从 X X X Y Y Y 的映射

    9. 原像 ∀ B ∈ Y \forall B\in Y BY 集合 B B B 在映射 f f f 下的原像为
      f − 1 B : = { x : f ( x ) ∈ B } f^{-1}B := \{x:f(x)\in B\} f1B:={x:f(x)B} ∀ E ∈ Y \forall \mathscr{E}\in Y EY,集合系 E \mathscr{E} E 在映射 f f f 下的原像为其包含所有集合的原像的集合
      f − 1 E : = { f − 1 B : B ∈ F } f^{-1}\mathscr{E} := \{f^{-1}B:B\in \mathscr{F}\} f1E:={f1B:BF} 可证明 Y Y Y 上的任何集合系 E \mathscr{E} E σ ( f − 1 E ) = f − 1 σ ( E ) \sigma(f^{-1}\mathscr{E} )=f^{-1}\sigma(\mathscr{E}) σ(f1E)=f1σ(E)

    10. 可测映射/随机元 & 使映射可测的最小σ域:给定可测空间 ( X , F ) (X,\mathscr{F}) (X,F) ( Y , S ) (Y,\mathscr{S}) (Y,S) 以及 X X X Y Y Y 的映射 f f f,若
      f − 1 S ⊂ F f^{-1} \mathscr{S}\subset \mathscr{F} f1SF 则称 f f f 为从 ( X , F ) (X,\mathscr{F}) (X,F) ( Y , S ) (Y,\mathscr{S}) (Y,S) 的可测映射或随机元; σ ( f ) : = f − 1 S \sigma(f):=f^{-1}\mathscr{S} σ(f):=f1S 叫做使映射 f f f 可测的最小 σ \sigma σ 域。这个东西的意义在于,假设我们在 ( X , F ) (X,\mathscr{F}) (X,F) 上面定义了一个测度(比如集合的大小),那么对于 ( Y , S ) (Y,\mathscr{S}) (Y,S) 中的任意元素 y ∈ S y\in \mathscr{S} yS,都能通过 f f f 找到其在 F \mathscr{F} F 上的原像,从而得到其对应的在 ( X , F ) (X,\mathscr{F}) (X,F) 上的测度值

    11. 广义实数集 R ˉ : = R ∪ { − ∞ , + ∞ } \bar{R} := R \cup \{-\infin,+\infin\} Rˉ:=R{,+},并且从普通实数集生成其对应的 σ \sigma σ B R ˉ : = σ ( B R , { − ∞ , + ∞ } ) \mathscr{B}_{\bar{R}}:=\sigma(\mathscr{B}_R,\{-\infin,+\infin\}) BRˉ:=σ(BR,{,+})(这个准确说叫 Borel 系)

    12. 可测函数 & 有限可测函数/随机变量:从可测空间 ( X , F ) (X,\mathscr{F}) (X,F) ( R ˉ , B R ˉ ) (\bar{R},\mathscr{B}_{\bar{R}}) (Rˉ,BRˉ) 的可测映射称为 ( X , F ) (X,\mathscr{F}) (X,F) 上的可测函数;特别的,从可测空间 ( X , F ) (X,\mathscr{F}) (X,F) ( R , B R ) (R,\mathscr{B}_R) (R,BR) 的可测映射称为 ( X , F ) (X,\mathscr{F}) (X,F) 上的有限可测函数/随机变量。这个的意义在于把集合系上的抽象元素映射成实数了,这样就方便我们使用高数工具进行操作,这有点像矩阵论中把向量空间中一个向量转换为它在一组基下的对应的数的坐标

    13. 非负集函数:给定空间 X X X 上的集合系 E \mathscr{E} E,定义在 E \mathscr{E} E 上,取值于 [ 0 , ∞ ] [0,\infin] [0,] 的函数称为非负集函数,记为 μ , ν , τ . . . \mu,\nu,\tau... μ,ν,τ...

    14. 可列可加性:设 μ \mu μ E \mathscr{E} E 上的非负集函数,若对于任意可列个两两不交的集合 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An, 只要 ⋃ n = 1 ∞ A n ∈ E \bigcup_{n=1}^\infin A_n\in \mathscr{E} n=1AnE,就一定有
      μ ( ⋃ n = 1 ∞ A n ) = ∑ n = 1 ∞ μ ( A n ) \mu(\bigcup_{n=1}^\infin A_n) = \sum_{n=1}^\infin \mu(A_n) μ(n=1An)=n=1μ(An) 则称 μ \mu μ 具有可列可加性。举例来说,面积作为一种测度具有可列可加性,可以看作上式的 μ \mu μ,当我们要测量一个不规则图形面积时,可以用矩形不断对其进行分割,并且用越来越小的矩形去逼近边缘,最后把所有画出的矩形面积求和得到估计值

    15. 测度:设 E \mathscr{E} E X X X 上的集合系且 ∅ ∉ E \empty \notin \mathscr{E} /E,若 E \mathscr{E} E 上的非负集函数 μ \mu μ 有可列可加性且满足 μ ( ∅ ) = 0 \mu(\empty)=0 μ()=0,则称之为 E \mathscr{E} E 上的测度

      1. 若对于每个 A ∈ E A\in\mathscr{E} AE 还有 μ ( A ) < ∞ \mu(A)<\infin μ(A)<,则称测度是有限的
      2. 若对于每个 A ∈ E A\in\mathscr{E} AE 存在满足 μ ( A ) < ∞ \mu(A)<\infin μ(A)< { A n ∈ E , n = 1 , 2 , . . . } \{A_n\in\mathscr{E},n=1,2,...\} {AnE,n=1,2,...},则称测度是σ有限的
    16. 测度空间:虽然前面在很一般的角度上定义了测度,但我们的主要目标还是讨论由 X X X 的子集生成的某个 σ \sigma σ F \mathscr{F} F 上的测度。我们把空间 X X X,加上由其子集生成的某个 σ \sigma σ F \mathscr{F} F,再加上 F \mathscr{F} F 上的一个测度 μ \mu μ,三者组成的 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 称为测度空间

      如果测度空间 ( X , F , P ) (X,\mathscr{F},P) (X,F,P) 满足 P ( X ) = 1 P(X)=1 P(X)=1,则称它为 概率空间,对应的 P P P 称为 概率测度 F \mathscr{F} F 中的集合 A A A 称为 事件,而 P ( A ) P(A) P(A) 称为事件 A A A 发生的 概率

    17. Lp空间:设 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 是测度空间且 1 ≤ p < ∞ 1\leq p<\infin 1p<,用 L p ( X , F , μ ) L_p(X,\mathscr{F},\mu) Lp(X,F,μ) 表示 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 上全体 p p p 阶可积的可测函数 f f f 的集合,即满足
      ∫ X ∣ f ∣ p d μ < ∞ \int_X|f|^p d\mu<\infin Xfpdμ< 由于只考虑给定测度空间上的集合,故 L p ( X , F , μ ) L_p(X,\mathscr{F},\mu) Lp(X,F,μ) 简记为 L p L_p Lp,其本质是一个赋范向量空间,具有以下性质

      1. 对空间中元素(即映射 f f f)定义了范数:范数是从指定空间到实属的映射关系,具有非负性、其次性并满足三角不等式,引入范数意味着空间具有了长度与距离的概念

      2. 具有完备性:这个概念比较绕,我们和欧拉空间做类比

        粗略但是直观的说,完备是指空间中没有任何遗漏的点。而想要理解 “没有遗漏的点” 这个概念需要用到距离,一个空间需要定义距离,完备才变得有意义。从实数空间入手,我们说实数空间 R 是完备的,在实数空间中,距离的定义是两元素差的绝对值,可以想想看,任何一个点在与它距离趋近为0的地方都存在一个点并且这个点是在实数空间中的,因此我们说实数空间是完备的

        完备性的具体定义需要借助柯西序列,请参考 机器学习的数学基础(2):赋范空间、内积空间、完备空间与希尔伯特空间

      3. L p L^p Lp 空间又称 Lebesgue空间,其中的函数 f f f 都是 Lebesgue可积的,这里可参考 泛函分析笔记(八)Banach 空间中的lp空间和Lebesgue空间 (勒贝格空间)

      说白了就是空间中一些具有特殊性质的测度的集合

1.2 收缩映射定理

  • 收缩映射 Contraction Mapping:收缩映射 T : L p → L p T:L^p \to L^p T:LpLp 是定义在 L p L_p Lp 空间上的映射,满足 ∀ f , g ∈ T p \forall f,g\in T^p f,gTp
    ∣ ∣ T ( f ) − T ( g ) ∣ ∣ ρ ≤ c ∣ ∣ f − g ∣ ∣ ρ ,     ( 0 ≤ c < 1 ) ||T(f)-T(g)||_\rho \leq c ||f-g||_\rho, \space\space\space (0\leq c<1) ∣∣T(f)T(g)ρc∣∣fgρ,   (0c<1) 其中 ∣ ∣ ⋅ ∣ ∣ ρ ||·||_\rho ∣∣ρ ρ \rho ρ-范数,可以把它看作一种距离度量,也就是说原先的两个可测函数 f , g f,g f,g 经过收缩映射后距离减小了
    在这里插入图片描述
    如果其中 T T T 是微分算子,则称压缩映射 T T T 是满足 Lipschitz 条件的映射

  • 收缩映射定理:若 T T T L p L^p Lp 空间上的收缩映射,则方程
    ( T − I ) ( f ) = 0 ⇔ T ( f ) = f (T-I)(f)=0 \Leftrightarrow T(f) = f (TI)(f)=0T(f)=f L p L^p Lp 空间内仅有一个 f f f 解,称之为 L p L^p Lp T T T不动点。注意到若 T T T 是微分算子,则上式为一个常微分方程,因此收缩映射定理常用于证明常微分方程解的存在性和唯一性。从几何意义上看, T T T f f f 映射回自身
    在这里插入图片描述

  • 压缩映射原理的证明思路如下:

    1. 首先任选 f 0 ∈ L p f_0\in L^p f0Lp,然后反复使用 T T T 进行映射得到一个无穷的序列
      f 1 = T ( f 0 ) ,   f 2 = T ( f 1 ) , . . . ,   f n = T ( f n − 1 ) , . . . f_1 = T(f_0),\space f_2 = T(f_1),...,\space f_n = T(f_{n-1}),... f1=T(f0), f2=T(f1),..., fn=T(fn1),...
    2. 注意到由于来自压缩映射,其中任意相邻两项距离度量越来越近, { f } \{f\} {f} 是一个柯西序列,由于 L p L^p Lp 空间具有完备性,该序列必然收敛到 L p L^p Lp 内部,这说明不动点 lim ⁡ n → ∞ f n \lim_{n\to\infin}f_n limnfn 一定存在
    3. 最后考虑 T ( f 0 ) T(f_0) T(f0) 是否收敛回 f 0 f_0 f0 自身,这只须证明 lim ⁡ n → ∞ ∣ ∣ f n − f 0 ∣ ∣ = 0 \lim_{n\to\infin}||f_n-f_0||=0 limn∣∣fnf0∣∣=0 即可,我们利用范数的三角不等式,不断向 f n f_n fn f 0 f_0 f0 之间插入 f i f_i fi,并结合柯西序列性质进行放缩,最后即可得证不动点一定唯一,且为 lim ⁡ n → ∞ f n = f 0 \lim_{n\to\infin}f_n=f_0 limnfn=f0

    详细证明流程可以参考 压缩映射不动点定理

2. 表格型 Bellman 迭代的收敛性证明

  • 考察 MDP 中全体 s s s ( s , a ) (s,a) (s,a) 组成的空间 X X X 及其自身组成的集合系 F = X \mathscr{F}=X F=X,显然其上的子集合关于集合的补和并封闭,故这也是一个 σ \sigma σ 域,这样 ( X , F ) (X,\mathscr{F}) (X,F) 就组成测度空间,价值函数 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a) 将其中的元素映射为实数,属于可测函数,因此 V , Q ∈ L p V,Q\in L^p V,QLp
  • 下面利用上述压缩映射原理来证明常见的两种 Bellman 迭代的收敛性,只需证明两种 Bellman 算子都是压缩映射

    注意:以下分析是基于 model-based 情况的,即状态转移矩阵和奖励函数已知。对于 model-free 情况(使用 TD 方法)收敛性仍然成立,但要求估计更新步长满足随机近似条件

2.1 Bellman operator 的收敛性

  • 先考察关于策略 π \pi π 的 Bellman 算子 B π \mathcal{B}_\pi Bπ,该算子应用于 model-based 的 evaluation 方法 policy evaluation
    ( B π U ) ( s ) : = ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ U ( s ′ ) ] (\mathcal{B}_\pi U)(s) := \sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)[r(s,a,s')+\gamma U(s')] (BπU)(s):=aπ(as)sp(ss,a)[r(s,a,s)+γU(s)] ∀ s , s ′ , s ′ ′ ∈ S , a ∈ A \forall s,s',s''\in\mathcal{S},a\in\mathcal{A} s,s,s′′S,aA,对于任意两个价值函数 U 1 ( s ) , U 2 ( s ) U_1(s),U_2(s) U1(s),U2(s),考察映射后二者距离
    ∣ ( B π U 1 ) ( s ) − ( B π U 2 ) ( s ) ∣ = ∣ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) γ [ U 1 ( s ′ ) − U 2 ( s ′ ) ] ∣ ≤ γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) ∣ U 1 ( s ′ ) − U 2 ( s ′ ) ∣ ≤ γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) ( max ⁡ s ′ ′ ∣ U 1 ( s ′ ′ ) − U 2 ( s ′ ′ ) ∣ ) = γ max ⁡ s ′ ′ ∣ U 1 ( s ′ ′ ) − U 2 ( s ′ ′ ) ∣ = γ ∣ ∣ U 1 − U 2 ∣ ∣ ∞ \begin{aligned} |(\mathcal{B}_\pi U_1)(s)-(\mathcal{B}_\pi U_2)(s)| &= \Big|\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\gamma[U_1(s')-U_2(s')]\Big| \\ &\leq \gamma\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\Big|U_1(s')-U_2(s')\Big| \\ &\leq \gamma\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\Big(\max_{s''}|U_1(s'')-U_2(s'')|\Big) \\ &= \gamma\max_{s''}|U_1(s'')-U_2(s'')| \\ &= \gamma||U_1-U_2||_\infin \\ \end{aligned} (BπU1)(s)(BπU2)(s)= aπ(as)sp(ss,a)γ[U1(s)U2(s)] γaπ(as)sp(ss,a) U1(s)U2(s) γaπ(as)sp(ss,a)(s′′maxU1(s′′)U2(s′′))=γs′′maxU1(s′′)U2(s′′)=γ∣∣U1U2 注意到对于任意 s ∈ S s\in\mathcal{S} sS 上式都成立,故对 s = arg max ⁡ s ∣ ( B π U 1 ) ( s ) − ( B π U 2 ) ( s ) ∣ s=\argmax_{s}|(\mathcal{B}_\pi U_1)(s)-(\mathcal{B}_\pi U_2)(s)| s=argmaxs(BπU1)(s)(BπU2)(s) 也成立,即有
    ∣ ∣ B π U 1 − B π U 2 ∣ ∣ ∞ ≤ γ ∣ ∣ U 1 − U 2 ∣ ∣ ∞ ||\mathcal{B}_\pi U_1-\mathcal{B}_\pi U_2||_\infin \leq \gamma||U_1-U_2||_\infin \\ ∣∣BπU1BπU2γ∣∣U1U2 因此 Bellman 算子是一个压缩映射,根据收缩映射定理,policy evaluation 一定能收敛到唯一的价值函数 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a)

2.2 Bellman optimal operator 的收敛性

  • 进一步考察 Bellman 最优算子 B ∗ \mathcal{B}^* B,该算子应用于 model-based 的 evaluation 方法 value iteration
    ( B ∗ U ) ( s , a ) : = r ( s , a ) + γ ∑ s ′ p ( s ′ ∣ s , a ) max ⁡ a ′ U ( s ′ , a ′ ) (\mathcal{B}^*U)(s,a) := r(s,a)+\gamma \sum_{s'}p(s'|s,a)\max_{a'}U(s',a')\\ (BU)(s,a):=r(s,a)+γsp(ss,a)amaxU(s,a) ∀ s , s ′ , s ′ ′ ∈ S , a , a ′ , a 1 ′ , a 2 ′ ∈ A \forall s,s',s''\in\mathcal{S},a,a',a_1',a_2'\in\mathcal{A} s,s,s′′S,a,a,a1,a2A,对于任意两个价值函数 U 1 ( s , a ) , U 2 ( s , a ) U_1(s,a),U_2(s,a) U1(s,a),U2(s,a),考察映射后二者距离
    ∣ ( B ∗ U 1 ) ( s , a ) − ( B ∗ U 2 ) ( s , a ) ∣ = ∣ γ ∑ s ′ p ( s ′ ∣ s , a ) [ max ⁡ a 1 ′ U 1 ( s ′ , a 1 ′ ) − max ⁡ a 2 ′ U 2 ( s ′ , a 2 ′ ) ] ∣ ≤ γ ∑ s ′ p ( s ′ ∣ s , a ) ∣ max ⁡ a 1 ′ U 1 ( s ′ , a 1 ′ ) − max ⁡ a 2 ′ U 2 ( s ′ , a 2 ′ ) ∣ ≤ γ ∑ s ′ p ( s ′ ∣ s , a ) ∣ max ⁡ a ′ ( U 1 ( s ′ , a ′ ) ) − U 2 ( s ′ , a ′ ) ∣ ≤ γ ∑ s ′ p ( s ′ ∣ s , a ) max ⁡ a ′ ∣ U 1 ( s ′ , a ′ ) − U 2 ( s ′ , a ′ ) ∣ ≤ γ max ⁡ s ′ ′ , a ′ ′ ∣ U 1 ( s ′ ′ , a ′ ′ ) − U 2 ( s ′ ′ , a ′ ′ ) ∣ = γ ∣ ∣ U 1 − U 2 ∣ ∣ ∞ \begin{aligned} |(\mathcal{B}^* U_1)(s,a)-(\mathcal{B}^* U_2)(s,a)| &= \Big|\gamma\sum_{s'}p(s'|s,a)[\max_{a_1'}U_1(s',a_1')-\max_{a_2'}U_2(s',a_2')]\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\Big|\max_{a_1'}U_1(s',a_1')-\max_{a_2'}U_2(s',a_2')\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\Big|\max_{a'}(U_1(s',a'))-U_2(s',a')\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\max_{a'}\Big|U_1(s',a')-U_2(s',a')\Big| \\ &\leq \gamma\max_{s'',a''}|U_1(s'',a'')-U_2(s'',a'')| \\ &= \gamma||U_1-U_2||_\infin \\ \end{aligned} (BU1)(s,a)(BU2)(s,a)= γsp(ss,a)[a1maxU1(s,a1)a2maxU2(s,a2)] γsp(ss,a) a1maxU1(s,a1)a2maxU2(s,a2) γsp(ss,a) amax(U1(s,a))U2(s,a) γsp(ss,a)amax U1(s,a)U2(s,a) γs′′,a′′maxU1(s′′,a′′)U2(s′′,a′′)=γ∣∣U1U2 注意到对于任意 s ∈ S , a ∈ A s\in\mathcal{S},a\in\mathcal{A} sS,aA 上式都成立,故对 s , a = arg max ⁡ s , a ∣ ( B ∗ U 1 ) ( s , a ) − ( B ∗ U 2 ) ( s , a ) ∣ s,a=\argmax_{s,a}|(\mathcal{B}^* U_1)(s,a)-(\mathcal{B}^* U_2)(s,a)| s,a=argmaxs,a(BU1)(s,a)(BU2)(s,a) 也成立,即有
    ∣ ∣ B ∗ U 1 − B ∗ U 2 ∣ ∣ ∞ ≤ γ ∣ ∣ U 1 − U 2 ∣ ∣ ∞ ||\mathcal{B}^* U_1-\mathcal{B}^* U_2||_\infin \leq \gamma||U_1-U_2||_\infin \\ ∣∣BU1BU2γ∣∣U1U2 因此 Bellman optimal operator 也是一个压缩映射,根据收缩映射定理,value iteration 一定能收敛到唯一的最优价值函数 V ∗ ( s ) V^*(s) V(s) Q ∗ ( s , a ) Q^*(s,a) Q(s,a)

3. 函数近似法的收敛性问题

  • 本段参考:CS294-112 at UC Berkeley

  • 当使用函数近似法估计价值时,往往不会收敛,本节以 DQN 类算法中的价值网络为例进行分析,该类价值网络基于 Bellman optimal equation 进行优化,其损失函数设计为 TD error 的 L2 损失,通过优化该损失减小 TD error,使价值估计靠近 TD target。关于 DQN 论文的详解,请参考:论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning

    注意:以下分析是基于 model-free 情况的

  • 现在我们要优化以 ϕ \phi ϕ 参数化的 DQN 类价值网络 V ϕ V_\phi Vϕ ,其训练过程可以看做反复执行以下两步

    1. 计算样本的 TD target,即对于样本 i i i 计算 y i ← max ⁡ a i ( r ( s i , a i ) + γ E [ V ϕ ( s i ′ ) ] ) y_i \leftarrow \max_{a_i}(r(s_i,a_i)+\gamma \mathbb{E}[V_\phi(s_i')]) yiaimax(r(si,ai)+γE[Vϕ(si)]) 此步可以看做使用 Bellman optimal operator B ∗ \mathcal{B}^* B 进行一步更新,即
      V ← B ∗ V V\leftarrow \mathcal{B^*}V VBV
    2. 执行一步 L2 损失回归,更新网络参数 ϕ \phi ϕ,即 ϕ ← arg min ⁡ ϕ 1 2 ∑ i ∣ ∣ V ϕ ( s i ) − y i ∣ ∣ 2 \phi \leftarrow \argmin_\phi\frac{1}{2}\sum_i||V_\phi(s_i)-y_i||^2 ϕϕargmin21i∣∣Vϕ(si)yi2注意这是一步学习过程,确定了一个参数 ϕ \phi ϕ,就唯一地确定了一个新的网络价值 V ′ V' V,如果价值我们的函数逼近器的假设空间为 Ω \Omega Ω,这一步等价于在 Ω \Omega Ω 中找出了一个 V ′ V' V,即
      V ′ ← arg min ⁡ V ′ ∈ Ω 1 2 ∑ ∣ ∣ V ′ ( s ) − ( B ∗ V ) ( s ) ∣ ∣ 2 V' \leftarrow \argmin_{V'\in\Omega}\frac{1}{2}\sum||V'(s)-(\mathcal{B^*}V)(s)||^2 VVΩargmin21∣∣V(s)(BV)(s)2 仔细分析这一步最小二乘回归,我们知道最小二乘回归等价于做向量空间投影(可参考 一文看懂最小二乘法),因此这一步可以看作在 Ω \Omega Ω 空间中找出一个距离 B ∗ V \mathcal{B^*}V BV 最近的点,不妨使用一个投影算子 Π \Pi Π 来表示它
      Π : Π V = arg min ⁡ V ′ ∈ Ω 1 2 ∑ ∣ ∣ V ′ ( s ) − V ( s ) ∣ ∣ 2 \Pi : \Pi V = \argmin_{V'\in\Omega}\frac{1}{2}\sum||V'(s)-V(s)||^2 Π:ΠV=VΩargmin21∣∣V(s)V(s)2

    综上所述,DQN 类算法中的价值网络,其训练过程可以看做使用 Π B ∗ \Pi\mathcal{B}^* ΠB 算子进行反复迭代,即
    V ← Π B ∗ V V\leftarrow \Pi\mathcal{B^*}V VΠBV

  • 接下来考虑函数近似模型的表示能力,我们知道目前最强的函数近似工具,也就是神经网络,在参数量无穷的情况下可以近似任意函数,这时 Ω \Omega Ω 空间是无限大的;但当参数有限时,无论使用什么模型,都只能表示有限大小的假设空间 Ω \Omega Ω,不妨使用二维空间中的一条直线来表示 Ω \Omega Ω,则使用 Π B ∗ \Pi\mathcal{B}^* ΠB 算子的一步更新可以表示如下
    在这里插入图片描述

    观察一下发生了什么

    1. 假设神经网络随机初始化,则价值网络初始化为 Ω \Omega Ω 上任意一点 V V V
    2. 使用 B ∗ \mathcal{B}^* B 进行一步更新,这时 B ∗ V \mathcal{B}^*V BV 仍在 L p L^p Lp 空间内,但是不一定还在 Ω \Omega Ω 空间中了
    3. 使用 Π \Pi Π 算子做一步投影,回到 Ω \Omega Ω 空间上的 V ′ V' V
  • 再考察一下这里的两个算子 B ∗ \mathcal{B}^* B Π \Pi Π

    1. B ∗ \mathcal{B}^* B:由 2.2 节, B ∗ \mathcal{B}^* B 关于无穷范数 ∣ ∣ ⋅ ∣ ∣ ∞ ||·||_\infin ∣∣ 是压缩映射
    2. Π \Pi Π:投影本质上相当于对样本的某些维度进行压缩,两个点在投影前后的距离度量一定是收缩的,如下图所示
      在这里插入图片描述
      显然投影后两个样本点的欧式距离肯定是减小的, Π \Pi Π 关于 2范数 ∣ ∣ ⋅ ∣ ∣ 2 ||·||^2 ∣∣2 范数是压缩映射
  • 两个算子单独看都能得到压缩映射,性质都很好,但是一旦把它们组合起来, Π B ∗ \Pi\mathcal{B}^* ΠB 不能关于任何范数成为压缩映射,这意味着迭代过程中,两个算子都会在各自的距离度量上将 f , g f,g f,g 拉近,但同时很可能会在对方的距离度量上将 f , g f,g f,g 推远,收敛性无法保证。举例来说,如下图所示,目标位置是星星处,一次迭代后得到的价值估计反而离目标更远了
    在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
基于值函数强化学习方法是一类经典的强化学习算法,用于解决在未知环境做决策的问题。该方法通过学习一个值函数来评估不同状态下的行动价值,从而帮助智能体做出最优的决策。 在基于值函数强化学习方法,常见的算法包括Q-learning和深度Q网络(Deep Q-Network, DQN)等。 1. Q-learning: Q-learning是一种基于动态规划的无模强化学习算法。它通过学习一个Q值函数来评估在不同状态下采取不同行动的价值。Q值表示在当前状态下采取某个行动所能获得的长期累积回报。 Q-learning算法的基本思想是通过不断迭代更新Q函数的估计值,使其逼近真实的Q值。智能体在环境与之交互,根据当前状态选择行动,并观察到下一个状态和奖励信号。然后,根据Bellman方程更新Q值函数的估计值,以使其更接近真实的Q值。这个过程通过迭代进行,直到收敛到最优的Q值函数。 2. 深度Q网络(DQN): 深度Q网络是一种基于神经网络的值函数近似方法。它利用深度神经网络来近似Q值函数,解决了状态空间较大时传统Q-learning算法的局限性。 DQN算法使用一个深度神经网络作为Q值函数近似器。智能体通过与环境交互,收集样本数据,然后利用这些数据进行经验回放和目标网络更新来训练神经网络。经验回放是指将智能体的经验存储在经验回放缓冲区,并随机采样进行训练,以减少样本之间的相关性。目标网络更新是指使用一个目标网络来计算目标Q值,减少训练过程的目标值偏差。 DQN算法通过不断迭代训练神经网络,使其逼近最优的Q值函数。最终,智能体可以根据神经网络的输出选择最优的行动策略。 基于值函数强化学习方法在很多领域都有广泛的应用,包括游戏智能、机器人控制、自动驾驶等。它具有一定的理论基础和实际效果,并且可以通过结合其他技术手段进一步优化和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云端FFF

所有博文免费阅读,求打赏鼓励~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值