神经翻译笔记3. 神经网络语言模型与词向量

最新推荐文章于 2023-07-25 00:42:48 发布

TimsonShi

最新推荐文章于 2023-07-25 00:42:48 发布

阅读量879

点赞数

分类专栏：神经翻译笔记文章标签：神经网络词向量语言模型 word2vec GloVe

本文链接：https://blog.csdn.net/xacecaSK2/article/details/89298890

版权

文章目录

神经翻译笔记3. 神经网络语言模型与词向量

神经翻译笔记3. 神经网络语言模型与词向量

本文主要参考了如下教程

Koehn2017 : 第2、3节，第4节前半部分
Neubig2017 : 第5章
StanfordCS224n : 第2、3、4讲
Goldberg NNMNLP : 第3、4、5、8、9、10、11章

其中主要会以[Neubig2017]和[StanfordCS224n]的内容为主

神经网络

关于神经网络的一些基本细节，例如基本概念、反向传播的思想等等，在博客的其它文章里（如林轩田老师的机器学习技法、Hinton的Coursera课程）有过介绍，这里就不赘述了。这里想就着斯坦福大学CS224n第四讲的内容从矩阵的层面上给出反向传播梯度的计算方法

一个示例结构

神经网络结构示意图

上图给出了一个示例神经网络，各层参数与输入、输出及其它记号如下

输入向量 $\boldsymbol{x} \in \mathbb{R}^{3 \times 1}$
输入层到隐藏层的权重 $\boldsymbol{W} \in \mathbb{R}^{2 \times 3}$ ，同时还包括一个偏置向量 $\boldsymbol{b} \in \mathbb{R}^{2 \times 1}$
隐藏层向量在激活前是 $\boldsymbol{z}\in \mathbb{R}^{2 \times 1}$ ，激活函数是 $f$ ，向量激活后为 $\boldsymbol{a} \in \mathbb{R}^{2 \times 1}$
隐藏层到输出层的权重 $\boldsymbol{U} \in \mathbb{R}^{2 \times 1}$ （按照约定的记法，向量用小写粗体，矩阵用大写粗体，这里应该写为 $\boldsymbol{u}$ 。不过为了与原课件对应，这里没有这样做）
神经网络的输出结果为一个标量 $s$

按照如上约定， $s$ 的计算过程向量化表示如下
$\begin{aligned} s &= \boldsymbol{U}^\mathsf{T}\boldsymbol{a} \\ &= \boldsymbol{U}^\mathsf{T}f(\boldsymbol{z}) \\ &= \boldsymbol{U}^\mathsf{T}f(\boldsymbol{Wx}+\boldsymbol{b}) \end{aligned}$
或者分变量写出，成为如下形式
$\begin{aligned} s &= \boldsymbol{U}^\mathsf{T}\boldsymbol{a} \\ \boldsymbol{a} &= f(\boldsymbol{z}) \\ \boldsymbol{z} &= \boldsymbol{Wx} + \boldsymbol{b} \end{aligned}$

按照梯度下降的原理，训练模型时需要得到损失函数 $J$ 对每个参数的梯度。例如，对于参数 $\boldsymbol{W}$ ，需要计算 $\frac{\partial J}{\partial \boldsymbol{W}}$ 。根据反向传播算法和导数的链式法则，有
$\frac{\partial J}{\partial \boldsymbol{W}} = \frac{\partial J}{\partial s}\cdot \frac{\partial s}{\partial \boldsymbol{W}}$
其中，第一项 $\frac{\partial J}{\partial s}$ 如何计算应该视具体的损失函数计算方法而定，与参数本身无关。因此对任意参数，只需要关注网络输出 $s$ 对该参数的偏导即可

从矩阵元素看如何计算梯度

（这一部分讲得比较详细但是也很繁琐，不感兴趣的可以跳过）

要计算 $\frac{\partial s}{\partial \boldsymbol{W}}$ ，可以首先考虑如何计算 $\frac{\partial s}{\partial W_{ij}}$ 。由 $s$ 的计算方法，有
$\frac{\partial s}{\partial W_{ij}} = \frac{\partial}{\partial W_{ij}}\boldsymbol{U}^\mathsf{T}\boldsymbol{a}$
由前图，每个 $\boldsymbol{W}_{i\cdot}$ 只与 $a_i$ 相关， $a_i$ 又只与 $U_ia_i$ 相关，因此
$\frac{\partial}{\partial W_{ij}}\boldsymbol{U}^\mathsf{T}\boldsymbol{a} = \frac{\partial }{\partial W_{ij}}U_ia_i$

由于 $U_i$ 与 $W_{ij}$ 无关，因此可以提出来。代入其它变量定义，并将 $f$ 的导数记作 $f^{'}$ （因为可选的激活函数有很多种），可以得到
$\begin{aligned} \frac{\partial}{\partial W_{ij}}U_ia_i &= U_i \frac{\partial}{\partial W_{ij}}a_i \\ &= U_i \frac{\partial a_i}{\partial z_i} \frac{\partial z_i}{\partial W_{ij}} \\ &= U_i \frac{\partial f(z_i)}{\partial z_i}\frac{\partial z_i}{\partial W_{ij}} \\ &= U_i f'(z_i)\frac{\partial z_i}{\partial W_{ij}} \\ &= U_i f'(z_i)\frac{\partial (\boldsymbol{W}_{i\cdot}\boldsymbol{x} + b_i)}{\partial W_{ij}} \\ &= U_i f'(z_i) \frac{\partial }{\partial W_{ij}}\sum_kW_{ik}x_k \\ &= U_i f'(z_i) x_j \end{aligned}$
如果将 $U_if'(z_i)$ 看做一个整体，记作 $\delta_i$ ，那么有
$\frac{\partial s}{\partial W_{ij}} = \delta_ix_j$
由于标量 $y$ 对矩阵 $\boldsymbol{X} \in \mathbb{R}^{m \times n}$ 的求导法则为
$\frac{\partial y}{\partial \boldsymbol{X}} = \left[\begin{matrix}\frac{\partial y}{\partial X_{11}} & \cdots & \frac{\partial y}{\partial X_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial X_{m1}} & \cdots &\frac{\partial y}{\partial X_{mn}}\end{matrix}\right]$
因此
$\begin{aligned} \frac{\partial s}{\partial \boldsymbol{W}} &= \left[\begin{matrix}\frac{\partial s}{\partial W_{11}} & \frac{\partial s}{\partial W_{12}} & \frac{\partial s}{\partial W_{13}} \\ \frac{\partial s}{\partial W_{21}} & \frac{\partial s}{\partial W_{22}} & \frac{\partial s}{\partial W_{23}}\end{matrix}\right] \\ &= \left[\begin{matrix} \delta_1x_1 & \delta_1x_2 & \delta_1x_3 \\ \delta_2x_1 & \delta_2x_2 & \delta_2x_3\end{matrix}\right] \\ &= \boldsymbol{\delta}\boldsymbol{x}^\mathsf{T} \end{aligned}$

最低0.47元/天解锁文章

TimsonShi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经翻译笔记3. 神经网络语言模型与词向量

文章目录神经翻译笔记3. 神经网络语言模型与词向量神经网络一个示例结构从矩阵元素看如何计算梯度从矩阵微分看如何计算梯度激活函数自动微分神经网络语言模型经典词向量算法Word2Vec分层Softmax负采样频繁词的降采样GloVe词向量的评估词向量的陷阱与缺陷参考文献神经翻译笔记3. 神经网络语言模型与词向量本文主要参考了如下教程Koehn2017 : 第2、3节，第4节前半部分Neubi...
复制链接

扫一扫