深度强化元学习教程---优化器元学习2/2

最新推荐文章于 2024-04-02 00:17:28 发布

最老程序员闫涛

最新推荐文章于 2024-04-02 00:17:28 发布

阅读量770

点赞数 4

分类专栏：人工智能深度学习文章标签：元学习深度强化学习深度强化元学习

本文链接：https://blog.csdn.net/yt7589/article/details/97923328

版权

人工智能同时被 2 个专栏收录

45 篇文章 1 订阅

订阅专栏

深度学习

41 篇文章 8 订阅

订阅专栏

优化器元网络推导

在梯度下降算法中，我们通过下面的公式来调整参数：
$\boldsymbol{\theta}_{t} = \boldsymbol{\theta}_{t-1} - \alpha_{t} \nabla_{\boldsymbol{\theta}_{t-1}} \mathcal{L}_{t}$
根据上一节长短时记忆网络的讨论，我们更新Cell记忆时的公式为：
$\boldsymbol{C}_{t}=\boldsymbol{f}_{t} \otimes \boldsymbol{C}_{t-1} + \boldsymbol{i}_{t} \otimes \tilde{\boldsymbol{C}}_{t}$
我们可以做如下假设：
$\boldsymbol{f}_{t}=1 \\ \boldsymbol{C}_{t-1} = \boldsymbol{\theta}_{t-1} \\ \boldsymbol{i}_{t} = \alpha_{t} \\ \tilde{\boldsymbol{C}_{t}} = \nabla_{\boldsymbol{\theta}_{t-1}} \mathcal{L}_{t}$
当我们做上述假设后，梯度下降算法就可以视为长短时记忆网络（LSTM）的Cell更新过程。如果我们把原来做图像分类的网络作为基础网络，用长短时记忆网络（LSTM）做优化器的元网络，LSTM网络中的Cell的状态值即为基础网络的参数，这样就构成了优化器元网络。
我们首先列出长短时记忆网络的公式：
$\boldsymbol{f}_{t}=\sigma( W_{f} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{f} ) \\ \boldsymbol{i}_{t}=\sigma( W_{i} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{i} ) \\ \tilde{\boldsymbol{C}}_{t}=tanh( W_{C} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{C} ) \\ \boldsymbol{C}_{t}=\boldsymbol{f}_{t} \otimes \boldsymbol{C}_{t-1} + \boldsymbol{i}_{t} \otimes \tilde{\boldsymbol{C}}_{t} \\ \boldsymbol{o}_{t}=\sigma( W_{o} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{o} ) \\ \boldsymbol{h}_{t}=\boldsymbol{o}_{t} \otimes tanh(\boldsymbol{C}_{t})$
我们首先来看遗忘门的应用，我们在训练深度学习网络中，最难处理的一种情况是我们进入了一个平坦的区域，这时梯度基本为零，对权值的调整将非常非常小，无法进行学习。如果我们利用元网络中的遗忘门，我们可以通过减小参数值，忘记一些之前的记忆来实现从这个平坦的区域内跳出来。此时遗忘门的输入值为：前一时刻的参数值、当前时刻基础网络的代价函数值、当前时刻基础网络的代价函数对网络参数的微分值、前一时刻遗忘门的输出，如下所示：
$\boldsymbol{f}_{t}=\sigma( W_{f} \cdot [\boldsymbol{\theta}_{t-1}, \mathcal{L}_{t},\nabla_{\boldsymbol{\theta}_{t-1}}, \boldsymbol{f}_{t-1}] + \boldsymbol{b}_{f} )$
我们用输入门来控制需要更新哪些参数：
$\boldsymbol{i}_{t}=\sigma( W_{i} \cdot [\boldsymbol{\theta}_{t-1}, \mathcal{L}_{t},\nabla_{\boldsymbol{\theta}_{t-1}}, \boldsymbol{i}_{t-1}] + \boldsymbol{b}_{i} )$

优化器学习算法

优化器元学习
利用随机值初始化元网络参数 $\boldsymbol{\phi}_{0}$
For d=1…N iterations
$\quad$ 从数据集 $D$ 中随机采样 $D^{train}$ 和 $D^{test}$
$\quad$ 将元网络中Cell初始状态 $\boldsymbol{C}_{0}$ 赋给基础网络参数 $\boldsymbol{\theta}_{0}$
$\quad$ For $t = 1 . . . T$ iterations
$\quad$ $\quad$ 从 $D^{train}$ 中随机抽样一个批次 $X_{t}, Y_{t}$
$\quad$ $\quad$ 在基础网络上计算代价函数值： $\mathcal{L}_{t}(Y_{t} \vert X_{t}; \boldsymbol{\theta}_{t})$
$\quad$ $\quad$ 遗忘门： $\boldsymbol{f}_{t}=\sigma( W_{f} \cdot [\boldsymbol{\theta}_{t-1}, \mathcal{L}_{t},\nabla_{\boldsymbol{\theta}_{t-1}}, \boldsymbol{f}_{t-1}] + \boldsymbol{b}_{f} )$
$\quad$ $\quad$ 输入门： $\boldsymbol{i}_{t}=\sigma( W_{i} \cdot [\boldsymbol{\theta}_{t-1}, \mathcal{L}_{t},\nabla_{\boldsymbol{\theta}_{t-1}}, \boldsymbol{i}_{t-1}] + \boldsymbol{b}_{i} )$
$\quad$ $\quad$ 输入信号预处理： $\tilde{\boldsymbol{C}}_{t}=tanh( W_{C} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{C} )$
$\quad$ $\quad$ 更新Cell状态： $\boldsymbol{C}_{t}=\boldsymbol{f}_{t} \otimes \boldsymbol{C}_{t-1} + \boldsymbol{i}_{t} \otimes \tilde{\boldsymbol{C}}_{t}$
$\quad$ $\quad$ 输出门： $\boldsymbol{o}_{t}=\sigma( W_{o} \cdot [\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}] + \boldsymbol{b}_{o} )$
$\quad$ $\quad$ 隐藏层状态： $\boldsymbol{h}_{t}=\boldsymbol{o}_{t} \otimes tanh(\boldsymbol{C}_{t})$
$\quad$ $\quad$ 将元网络的Cell状态 $\boldsymbol{C}_{t}$ 赋引基础网络参数 $\boldsymbol{\theta|_{t}}$
$\quad$ EndFor
$\quad$ 从测试集 $D^{test}$ 中抽样出一个样本 $X, Y$
$\quad$ 计算基础网络代价函数： $\mathcal{L}^{test}=\mathcal{L}_{\boldsymbol{\theta}_{t}}(Y \vert X; \boldsymbol{\theta}_{t})$
$\quad$ 利用 $\nabla{\mathcal{L}^{test}}_{\boldsymbol{\theta}_{t-1}}$ 更新元网络参数 $\phi_{d}$
EndFor
在本章中我们讲述了元学习的基本概念，同时以优化器元学习网络为例，详细讲解了元学习算法的基本数学原理。在下一章中，我们将讨论最先出现同时也是使用最广泛的一种元学习网络Siamese网络，并通过TensorFlow2.0来实现对MNIST手写数字数据集的处理。