神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识

最新推荐文章于 2023-09-06 16:23:28 发布

TimsonShi

最新推荐文章于 2023-09-06 16:23:28 发布

阅读量964

点赞数

分类专栏：神经翻译笔记文章标签： word2vec

本文链接：https://blog.csdn.net/xacecask2/article/details/89740419

版权

本文深入探讨了Word2Vec的参数学习，包括CBOW和SkipGram模型，详细介绍了连续词袋模型的参数更新过程。此外，文章讨论了如何优化计算效率，如分层softmax和负采样技术，以应对大规模词表的挑战。同时，还介绍了如何生成高质量的词向量，并总结了不同训练策略和模型在不同任务上的表现。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识

神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识

本文共分为三节，由若干文章拼接而成。第一节具体推导word2vec参数的更新规则，第二节介绍在词表比较大时对softmax做近似的方法，第三部分介绍如何生成好的词向量

Word2vec的参数学习

本节内容完全来自于[Rong2014]

连续词袋模型（CBOW）

上下文仅有一个单词的情况

上下文只有一个单词时，网络做的事情其实类似于二元语法模型。假设词表大小为 $V$ ，隐藏层大小为 $N$ ，输入层到隐藏层及隐藏层到输出层都是全连接，输入为独热编码向量，那么网络的示意图如下图所示
此处输入图片的描述

从图中可知，输入层和隐藏层之间的权重可以使用 $\times N$ 的矩阵 $\boldsymbol{W}$ 表示。假设输入的语境单词为词表中的第 $k$ 个单词，则输入向量 $\boldsymbol{x}$ 满足 $x_k = 1$ 且 $\forall k' \not= k \rightarrow x_{k'} = 0$ ，因此有
$\boldsymbol{h} = \boldsymbol{W}^\mathsf{T}\boldsymbol{x} = \boldsymbol{w}_{(k, \cdot)}^\mathsf{T} := \boldsymbol{v}_{w_I}^\mathsf{T}$
即 $\boldsymbol{W}$ 的第k行行向量实际上就是词表中第k个单词词向量的转置，记输入单词词向量为 $\boldsymbol{v}_{w_I}$

假设最后得到的得分向量为 $\boldsymbol{u}$ ，则从隐藏层到输出层有
$\boldsymbol{u} = \boldsymbol{W}'^\mathsf{T}\boldsymbol{h} \tag{1}$
其中 $\boldsymbol{u}$ 的第 $j$ 行元素 $u_j$ 为
$u_j = \boldsymbol{w}_{(\cdot, j)}'^\mathsf{T}\boldsymbol{h} \tag{2}$
这里 $\boldsymbol{w}_{(\cdot, j)}'$ 是 $\boldsymbol{W}'$ 的第 $j$ 列。记 $\boldsymbol{w}_{(\cdot, j)}'$ 为 $\boldsymbol{v}'_{w_O}$

得到 $\boldsymbol{u}$ 以后，可以使用softmax来得到单词的后验分布：给定上文单词为 $w_I$ 的情况下，出现单词 $w_O$ 的概率为
$P(w_O|w_I) = y_j = \frac{\exp(u_j)}{\sum_{j'=1}^V \exp(u_{j'})} \tag{3}$
将式(1)和(2)代入(3)可得
$P(w_O|w_I) = \frac{\exp\left(\boldsymbol{v}_{w_O}'^\mathsf{T}\boldsymbol{v}_{w_I}\right)}{\sum_{j'=1}^V \exp\left(\boldsymbol{v}_{w_j'}'^\mathsf{T}\boldsymbol{v}_{w_I}\right)} \tag{4}$

可见对同一个单词 $w$ 来说，会有两个嵌入表示 $\boldsymbol{v}_{w}$ 和 $\boldsymbol{v}_{w}'$ ，前者是 $\boldsymbol{W}$ 的第 $i$ 行行向量，后者是 $\boldsymbol{W}'$ 的第 $i$ 列列向量。在后续的分析中，称前者为单词 $w$ 的输入向量，后者为单词 $w$ 的输出向量

隐藏层到输出层权重的更新

假设给定单词 $w_k$ ，期望输出是单词 $w_{j^\ast}$ ，那么模型优化的目标是要最大化正确单词对应的概率 $y_{j^\ast}$ ，有
$\begin{aligned} \mathop{ {\rm \arg}\max}_{\boldsymbol{W}'} p(w_O|w_I) &= \mathop{ {\rm \arg}\max}_{\boldsymbol{W}'} y_{j^\ast} \\ &= \mathop{ {\rm \arg}\max}_{\boldsymbol{W}'} \log y_{j^\ast} \\ &= \mathop{ {\rm \arg}\max}_{\boldsymbol{W}'} \left(u_{j^\ast} - \log \sum_{j'=1}^V \exp(u_{j'})\right) \end{aligned}$
记 $E = -\log p(w_O|w_I)$ 为学习的目标函数，那么学习的目的就是最小化 $E$ 。可知
$\frac{\partial E}{\partial u_j} = y_j - t_j := e_j$
其中 $t_j = \mathbb{1}(j = j^\ast)$ 。或者可以写为
$\frac{\partial E}{\partial u_j} = \begin{cases}y_j - 1 & j = j^\ast \\ y_j & {\rm elsewhere}\end{cases}$
接着可以求出 $E$ 对 $\boldsymbol{W}'$ 中每个元素 $w_{ij}'$ 的偏导数
$\frac{\partial E}{\partial w_{ij}'} = \frac{\partial E}{\partial u_j}\cdot \frac{\partial u_j}{\partial w_{ij}'} = e_j \cdot h_i$
因此梯度下降的更新方法为
$w_{ij}'^{(\rm new)} = w_{ij}'^{(\rm old)} - \eta \cdot e_j\cdot h_i$
向量化的形式为
$\boldsymbol{v}_{w_j}'^{(\rm new)} = \boldsymbol{v}_{w_j}'^{(\rm old)} - \eta \cdot e_j \cdot \boldsymbol{h}$
这意味着，当 $y_j > t_j$ 时， $e_j$ 为正值， $\boldsymbol{v}_{w_j}'$ 会变小。由于 $t_j$ 只能为0或1，因此这说明给定输入单词为 $w_I$ 时，对不是期望单词序号 $j^\ast$ 的 $j$ ， $w_j$ 的输出向量会变小，反之相反

输入层到隐藏层权重的更新

首先计算目标函数 $E$ 对隐藏层每个输出元素 $h_i$ 的偏导数。由于隐藏层到输出层是全连接的，因此 $h_i$ 对每个 $u_j$ 都有贡献，使用全微分公式有
$\frac{\partial E}{\partial h_i} = \sum_{j=1}^V \frac{\partial E}{\partial u_j} \cdot \frac{\partial u_j}{\partial h_i} = \sum_{j=1}^V e_j \cdot w_{ij}' := e'_i$
其中 $e'_i$ 是 $N$ 维向量 $\boldsymbol{e}'$ 的第 $i$ 个元素。由于输入层到隐藏层也是一个全连接，因此有