LSTM模型的两种分解技巧

一夜了

已于 2022-01-19 17:25:54 修改

阅读量2.8w

点赞数 2

分类专栏：机器学习及深度学习相关 NLP 文章标签： LSTM FLSTM GLSTM factorization 分组

于 2018-07-21 11:13:22 首次发布

本文链接：https://blog.csdn.net/yiyele/article/details/81141616

版权

机器学习及深度学习相关同时被 2 个专栏收录

36 篇文章 7 订阅

订阅专栏

NLP

33 篇文章 11 订阅

订阅专栏

#介绍
LSTM模型在语言模型，机器翻译等领域取得了非凡的成就，然后LSTM网络有几百万的参数以及需要数周在多GPU系统中进行训练。因此，一下介绍两种方法来缩减网络参数以及训练时间。两种方法分别为factorized LSTM（FLSTM）以及group LSTM（GLSTM）。
#FLSTM
FLSTM网络主要是将大的LSTM矩阵转化为两个小的矩阵。
##LSTM模型简单介绍
在LSTM网络中，
这里写图片描述
其中 $x_t$ 表示输入， $h_t$ 表示cell state， $c_t$ 表示cell memory。
令cell gates（i,f,o,g）可以计算为：

其中 $x_t \in R^p,h_t \in R^p.and T:R^{2p} \rightarrow R^{4n}$ 是一个仿射变换 $T = W * [x_t,h_{t-1}] + b$ ，则 $h_t \in R^p,c_t \in R^n 可以用下面的等式计算$ ：
这里写图片描述
其中， $R^n \rightarrow R^p$ 是一个线性的映射，这里主要的计算量是在仿射变换T，由于其涉及到4n2p的矩阵W，因此，FLSTM网络主要减少W的参数。
##优化方法
在FLSTM网络中，主要是将矩阵W转化为两个矩阵，可以近似为 $\approx W_2 * W_1$ ，其中 $W_1$ 大小为2pr，$ W_2 $KaTeX parse error: Expected 'EOF', got '#' at position 258: \dots=/dissolve/70) #̲GLSTM GLSTM主要是将\dots$ x_t $以及隐藏层$ h_t $可以被分到不同的独立的组中。例如，如果有两个组，则$ x_t $和$ h_t $能够有效的被分成两个向量，$ x_t = (x_t^1,x_t2) $和$ h_t = (h_t^1,h_t2) $，其中$ h_t^{i$仅依靠$x_t}i,h_{t-1}^i$以及cell memory state。因此，分为k个组的公式可以表示为：
这里写图片描述