神经翻译笔记3. 神经网络语言模型与词向量

最新推荐文章于 2023-07-25 00:42:48 发布

TimsonShi

最新推荐文章于 2023-07-25 00:42:48 发布

阅读量888

点赞数

分类专栏：神经翻译笔记文章标签：神经网络词向量语言模型 word2vec GloVe

本文链接：https://blog.csdn.net/xacecask2/article/details/89298890

版权

文章目录

神经翻译笔记3. 神经网络语言模型与词向量

神经翻译笔记3. 神经网络语言模型与词向量

本文主要参考了如下教程

Koehn2017 : 第2、3节，第4节前半部分
Neubig2017 : 第5章
StanfordCS224n : 第2、3、4讲
Goldberg NNMNLP : 第3、4、5、8、9、10、11章

其中主要会以[Neubig2017]和[StanfordCS224n]的内容为主

神经网络

关于神经网络的一些基本细节，例如基本概念、反向传播的思想等等，在博客的其它文章里（如林轩田老师的机器学习技法、Hinton的Coursera课程）有过介绍，这里就不赘述了。这里想就着斯坦福大学CS224n第四讲的内容从矩阵的层面上给出反向传播梯度的计算方法

一个示例结构

神经网络结构示意图

上图给出了一个示例神经网络，各层参数与输入、输出及其它记号如下

输入向量 $\boldsymbol{x} \in \mathbb{R}^{3 \times 1}$
输入层到隐藏层的权重 $\boldsymbol{W} \in \mathbb{R}^{2 \times 3}$ ，同时还包括一个偏置向量 $\boldsymbol{b} \in \mathbb{R}^{2 \times 1}$
隐藏层向量在激活前是 $\boldsymbol{z}\in \mathbb{R}^{2 \times 1}$ ，激活函数是 $f$ ，向量激活后为 $\boldsymbol{a} \in \mathbb{R}^{2 \times 1}$
隐藏层到输出层的权重 $\boldsymbol{U} \in \mathbb{R}^{2 \times 1}$ （按照约定的记法，向量用小写粗体，矩阵用大写粗体，这里应该写为 $\boldsymbol{u}$ 。不过为了与原课件对应，这里没有这样做）
神经网络的输出结果为一个标量 $s$

按照如上约定， $s$ 的计算过程向量化表示如下
$\begin{aligned} s &= \boldsymbol{U}^\mathsf{T}\boldsymbol{a} \\ &= \boldsymbol{U}^\mathsf{T}f(\boldsymbol{z}) \\ &= \boldsymbol{U}^\mathsf{T}f(\boldsymbol{Wx}+\boldsymbol{b}) \end{aligned}$
或者分变量写出，成为如下形式
$\begin{aligned} s &= \boldsymbol{U}^\mathsf{T}\boldsymbol{a} \\ \boldsymbol{a} &= f(\boldsymbol{z}) \\ \boldsymbol{z} &= \boldsymbol{Wx} + \boldsymbol{b} \end{aligned}$

按照梯度下降的原理，训练模型时需要得到损失函数 $J$ 对每个参数的梯度。例如，对于参数 $\boldsymbol{W}$ ，需要计算 $\frac{\partial J}{\partial \boldsymbol{W}}$ 。根据反向传播算法和导数的链式法则，有
$\frac{\partial J}{\partial \boldsymbol{W}} = \frac{\partial J}{\partial s}\cdot \frac{\partial s}{\partial \boldsymbol{W}}$
其中，第一项 $\frac{\partial J}{\partial s}$ 如何计算应该视具体的损失函数计算方法而定，与参数本身无关。因此对任意参数，只需要关注网络输出 $s$ 对该参数的偏导即可

从矩阵元素看如何计算梯度

（这一部分讲得比较详细但是也很繁琐，不感兴趣的可以跳过）

要计算 $\frac{\partial s}{\partial \boldsymbol{W}}$ ，可以首先考虑如何计算 $\frac{\partial s}{\partial W_{ij}}$ 。由 $s$ 的计算方法，有
$\frac{\partial s}{\partial W_{ij}} = \frac{\partial}{\partial W_{ij}}\boldsymbol{U}^\mathsf{T}\boldsymbol{a}$
由前图，每个 $\boldsymbol{W}_{i\cdot}$ 只与 $a_i$ 相关， $a_i$ 又只与 $U_ia_i$ 相关，因此
$\frac{\partial}{\partial W_{ij}}\boldsymbol{U}^\mathsf{T}\boldsymbol{a} = \frac{\partial }{\partial W_{ij}}U_ia_i$

由于 $U_i$ 与 $W_{ij}$ 无关，因此可以提出来。代入其它变量定义，并将 $f$ 的导数记作 $f^{'}$ （因为可选的激活函数有很多种），可以得到
$\begin{aligned} \frac{\partial}{\partial W_{ij}}U_ia_i &= U_i \frac{\partial}{\partial W_{ij}}a_i \\ &= U_i \frac{\partial a_i}{\partial z_i} \frac{\partial z_i}{\partial W_{ij}} \\ &= U_i \frac{\partial f(z_i)}{\partial z_i}\frac{\partial z_i}{\partial W_{ij}} \\ &= U_i f'(z_i)\frac{\partial z_i}{\partial W_{ij}} \\ &= U_i f'(z_i)\frac{\partial (\boldsymbol{W}_{i\cdot}\boldsymbol{x} + b_i)}{\partial W_{ij}} \\ &= U_i f'(z_i) \frac{\partial }{\partial W_{ij}}\sum_kW_{ik}x_k \\ &= U_i f'(z_i) x_j \end{aligned}$
如果将 $U_if'(z_i)$ 看做一个整体，记作 $\delta_i$ ，那么有
$\frac{\partial s}{\partial W_{ij}} = \delta_ix_j$
由于标量 $y$ 对矩阵 $\boldsymbol{X} \in \mathbb{R}^{m \times n}$ 的求导法则为
$\frac{\partial y}{\partial \boldsymbol{X}} = \left[\begin{matrix}\frac{\partial y}{\partial X_{11}} & \cdots & \frac{\partial y}{\partial X_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial X_{m1}} & \cdots &\frac{\partial y}{\partial X_{mn}}\end{matrix}\right]$
因此
$\begin{aligned} \frac{\partial s}{\partial \boldsymbol{W}} &= \left[\begin{matrix}\frac{\partial s}{\partial W_{11}} & \frac{\partial s}{\partial W_{12}} & \frac{\partial s}{\partial W_{13}} \\ \frac{\partial s}{\partial W_{21}} & \frac{\partial s}{\partial W_{22}} & \frac{\partial s}{\partial W_{23}}\end{matrix}\right] \\ &= \left[\begin{matrix} \delta_1x_1 & \delta_1x_2 & \delta_1x_3 \\ \delta_2x_1 & \delta_2x_2 & \delta_2x_3\end{matrix}\right] \\ &= \boldsymbol{\delta}\boldsymbol{x}^\mathsf{T} \end{aligned}$