Glove 词向量

最新推荐文章于 2024-01-28 21:40:15 发布

酷暑冷冰

最新推荐文章于 2024-01-28 21:40:15 发布

阅读量339

点赞数

分类专栏： nlp(文本) 词向量文章标签： nlp 机器学习自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43913077/article/details/110142468

版权

nlp(文本) 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

词向量

1 篇文章 0 订阅

订阅专栏

文章目录

概述
统计共现矩阵
使用GloVe模型训练词向量
GloVe是如何训练的？
参考文献

概述

GloVe的全称是GloVe: Gobal Ve ctors for Word Representation

是这门课的老师Christopher D. Manning的研究成果

GloVe目标是综合基于统计和基于预测的两种方法的优点。

模型目标：词进行向量化表示，使得向量之间尽可能多地蕴含语义和语法的信息

流程：输入语料库–> 统计共现矩阵–> 训练词向量–>输出词向量

统计共现矩阵

设共现矩阵为X，其元素为 $X_{ij}$ 。
$X_{ij}$ 的意义为：在整个语料库中，单词 i 和单词 j 共同出现在一个窗口中的次数。
举个栗子：
设有语料库:

i love you but you love him i am sad

这个小小的语料库只有1个句子，涉及到7个单词：i、love、you、but、him、am、sad。
如果我们采用一个窗口宽度为5（左右长度都为2）的统计窗口，那么就有以下窗口内容：

窗口标号	中心词	窗口内容
0	i	i love you
1	love	i love you but
2	you	i love you but you
3	but	love you but you love
4	you	you but you love him
5	love	but you love him i
6	him	you love him i am
7	i	love him i am sad
8	am	him i am sad
9	sad	i am sad

窗口0、1长度小于5是因为中心词左侧内容少于2个，同理窗口8、9长度也小于5。
以窗口5为例说明如何构造共现矩阵：
中心词为love，语境词为but、you、him、i；则执行：

$X_{love, but}+=1$
$X_{love,you}+=1$
$X_{love,him}+=1$
$X_{love,i}+=1$

使用窗口将整个语料库遍历一遍，即可得到共现矩阵X：

	i	love	you	but	him	am	sad
i	0	4	2	0	2	2	2
love	4	0	5	3	2	0	0
you	2	5	1	5	2	0	0
but	0	3	5	0	0	0	0
him	2	2	2	0	0	2	0
am	2	0	0	0	2	0	2
sad	2	0	0	0	0	2	0

使用GloVe模型训练词向量

模型公式

先看模型，代价函数长这个样子：
$J=\sum_{i,j}^Nf(X_{i,j})(v_{i}^Tv_{j}+b_{i}+b_{j}-log(X_{i,j}))^2$
$v_i$ , $v_j$ 是单词i和单词j的词向量， $b_i$ , $b_j$ 是两个标量（作者定义的偏差项），f是权重函数（具体函数公式及功能下一节介绍），N是词汇表的大小（共现矩阵维度为N*N）。
可以看到，GloVe模型没有使用神经网络的方法。

模型怎么来的

那么作者为什么这么构造模型呢？首先定义几个符号：
$X_{i}=\sum_{j=1}^NX_{i,j}$
其实就是矩阵单词i那一行的和；
$P_{i,k}=\dfrac{X_{i,k}}{X_{i}}$
条件概率，表示单词k出现在单词i语境中的概率；
$ratio_{i,j,k}=\dfrac{P_{i,k}}{P_{j,k}}$
两个条件概率的比率。

作者的灵感是这样的：
作者发现， $ratio_{i,j,k}$ 这个指标是有规律的，规律统计在下表：

$ratio_{i,j,k}$ 的值	单词j，k相关	单词j，k不相关
单词i，k相关	趋近1	无限大
单词i，k不相关	很小	趋于1

很简单的规律，但是有用。
思想：假设我们已经得到了词向量，如果我们用词向量 $v_{i}$ 、 $v_{j}$ 、 $v_{k}$ 通过某种函数计算 $ratio_{i,j,k}$ ，能够同样得到这样的规律的话，就意味着我们词向量与共现矩阵具有很好的一致性，也就说明我们的词向量中蕴含了共现矩阵中所蕴含的信息。
设用词向量 $v_{i}$ 、 $v_{j}$ 、 $v_{k}$ 计算 $ratio_{i,j,k}$ 的函数为 $g(v_{i},v_{j},v_{k})$ (我们先不去管具体的函数形式），那么应该有：
$\frac{P_{i,k}}{P_{j,k}}=ratio_{i,j,k}=g(v_{i},v_{j},v_{k})$
即：
$\dfrac{P_{i,k}}{P_{j,k}}=g(v_{i},v_{j},v_{k})$
即二者应该尽可能地接近；
很容易想到用二者的差方来作为代价函数：
$J=\sum_{i,j,k}^N(\dfrac{P_{i,k}}{P_{j,k}}-g(v_{i},v_{j},v_{k}))^2$
但是仔细一看，模型中包含3个单词，这就意味着要在 $O(n^3)$ 的复杂度上进行计算，太复杂了，最好能再简单点。

现在我们来仔细思考 $g(v_{i},v_{j},v_{k})$ ，或许它能帮上忙；
作者的脑洞是这样的：

要考虑单词 i 和单词 j 之间的关系，那 $g(v_{i},v_{j},v_{k})$ 中大概要有这么一项吧: $v_{i}-v_{j}$ ；嗯，合理，在线性空间中考察两个向量的相似性，不失线性地考察，那么 $v_{i}-v_{j}$ 大概是个合理的选择；
$ratio_{i,j,k}$ 是个标量，那么 $g(v_{i},v_{j},v)$ 最后应该是个标量啊，虽然其输入都是向量，那內积应该是合理的选择，于是应该有这么一项吧： $v_{i}-v_{j})^Tv_{k}$ 。
然后作者又往 $v_{i}-v_{j})^Tv_{k}$ 的外面套了一层指数运算exp()，得到最终的 $g(v_{i},v_{j},v_{k})=exp((v_{i}-v_{j})^Tv_{k})$
最关键的第3步，为什么套了一层exp()？

套上之后，我们的目标是让以下公式尽可能地成立：
$\dfrac{P_{i,k}}{P_{j,k}}=g(v_{i},v_{j},v_{k})$
即：
$\dfrac{P_{i,k}}{P_{j,k}}=exp((v_{i}-v_{j})^Tv_{k})$
即：
$\dfrac{P_{i,k}}{P_{j,k}}=exp(v_{i}^Tv_{k}-v_{j}^Tv_{k})$
即：
$\dfrac{P_{i,k}}{P_{j,k}}=\dfrac{exp(v_{i}^Tv_{k})}{exp(v_{j}^Tv_{k})}$

然后就发现找到简化方法了：只需要让上式分子对应相等，分母对应相等，即： ${P_{i,k}}={exp(v_{i}^Tv_{k})}$ 并且 ${P_{j,k}}={exp(v_{j}^Tv_{k})}$

然而分子分母形式相同，就可以把两者统一考虑了，即：
${P_{i,j}}={exp(v_{i}^Tv_{j})}$
本来我们追求：
$\dfrac{P_{i,k}}{P_{j,k}}=g(v_{i},v_{j},v_{k})$
现在只需要追求：
${P_{i,j}}={exp(v_{i}^Tv_{j})}$
两边取个对数：
$log(P_{i,j})=v_{i}^Tv_{j}$
那么代价函数就可以简化为：
$J=\sum_{i,j}^N(log(P_{i,j})-v_{i}^Tv_{j})^2$
现在只需要在 $O(n^2)$ 的复杂度上进行计算，而不是 $O(n^3)$ ，现在关于为什么第3步中，外面套一层 $e x p ()$ 就清楚了，正是因为套了一层 $e x p ()$ ，才使得差形式变成商形式，进而等式两边分子分母对应相等，进而简化模型。
然而，出了点问题。
仔细看这两个式子：
$log(P_{i,j})=v_{i}^Tv_{j}$ 和 $log(P_{j,i})=v_{j}^Tv_{i}$

$log(P_{i,j})$ 不等于 $log(P_{j,i})$ 但是 $v_{i}^Tv_{j}$ 等于 $v_{j}^Tv_{i}$ ；即等式左侧不具有对称性，但是右侧具有对称性。
数学上出了问题。

补救一下好了。
现将代价函数中的条件概率展开：
$log(P_{i,j})=v_{i}^Tv_{j}$
即为:
$log(X_{i,j})-log(X_{i})=v_{i}^Tv_{j}$
将其变为：
$log(X_{i,j})=v_{i}^Tv_{j}+b_{i}+b_{j}$
即添了一个偏差项 $b_{j}$ ，并将 $log(X_{i})$ 吸收到偏差项 $b_{i}$ 中。
于是代价函数就变成了：
$J=\sum_{i,j}^N(v_{i}^Tv_{j}+b_{i}+b_{j}-log(X_{i,j}))^2$
然后基于出现频率越高的词对儿权重应该越大的原则，在代价函数中添加权重项，于是代价函数进一步完善：
$J=\sum_{i,j}^Nf(X_{i,j})(v_{i}^Tv_{j}+b_{i}+b_{j}-log(X_{i,j}))^2$
那么这个函数 $f(X_{i,j})$ 起了什么作用，为什么要添加这个函数呢？我们知道在一个语料库中，肯定存在很多单词他们在一起出现的次数是很多的（frequent co-occurrences），那么我们希望：

这些单词的权重要大于那些很少在一起出现的单词，因此这个函数要是非递减函数（non-decreasing）；
但这个权重也不能过大，当到达一定程度之后当不再增加；
如果两个单词没有在一起出现，也就是 $X_{i j}$ ,那么他们应该不参与到loss function的计算当中去，也就是f(x)要满足f(x)=0

为此，作者提出了以下权重函数：
$f(x)=\left \{ \begin{array}{cc} (x / x_{\max })^{\alpha} & \text { if } x<x_{max} \\ 1 & \text { otherwise } \end{array} \right.$
实验中作者设定 $x_{\max }=100$ ，并且发现 $\alpha=3 / 4$ 时效果比较好。

这个函数图像如下所示：

到此，整个模型就介绍完了。

以上内容其实不能完全称之为推导，因为有很多不严谨的地方，只能说是解释作者如何一步一步构造出这个公式的，仅此而已。

我的理解

我的理解是skip-gram、CBOW每次都是用一个窗口中的信息更新出词向量，但是Glove则是用了全局的信息（共线矩阵），也就是多个窗口进行更新

GloVe是如何训练的？

虽然很多人声称GloVe是一种无监督（unsupervised learing）的学习方式（因为它确实不需要人工标注label），但其实它还是有label的，这个label就是公式2中的 $log⁡(X_{i,j})$ ，而公式2中的向量 $w$ 和 $\tilde w$ 就是要不断更新/学习的参数，所以本质上它的训练方式跟监督学习的训练方法没什么不一样，都是基于梯度下降的。具体地，这篇论文里的实验是这么做的：采用了AdaGrad的梯度下降算法，对矩阵X中的所有非零元素进行随机采样，学习曲率（learning rate）设为0.05，在vector size小于300的情况下迭代了50次，其他大小的vectors上迭代了100次，直至收敛。最终学习得到的是两个vector是 $w$ 和 $\tilde w$ , 因为X是对称的（symmetric），所以从原理上讲 $w$ 和 $\tilde w$ 是也是对称的，他们唯一的区别是初始化的值不一样，而导致最终的值不一样。所以这两者其实是等价的，都可以当成最终的结果来使用。但是为了提高鲁棒性，我们最终会选择两者之和 $w$ + $\tilde w$ 作为最终的vector（两者的初始化不同相当于加了不同的随机噪声，所以能提高鲁棒性）。 在训练了400亿个token组成的语料后，得到的实验结果如下图所示：

这个图一共采用了三个指标：语义准确度，语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳，而context Windows size大致在6到10之间。

参考文献

http://www.fanyeong.com/2018/02/19/glove-in-detail/

https://blog.csdn.net/u014665013/article/details/79642083

酷暑冷冰

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Glove 词向量

文章目录概述统计共现矩阵使用GloVe模型训练词向量模型公式模型怎么来的我的理解GloVe是如何训练的？参考文献概述GloVe的全称是GloVe: bal Vectors for Word Representation是这门课的老师Christopher D. Manning的研究成果GloVe目标是综合基于统计和基于预测的两种方法的优点。模型目标：词进行向量化表示，使得向量之间尽可能多地蕴含语义和语法的信息流程：输入语料库–> 统计共现矩阵–> 训练词向量–>输出词向量统计
复制链接

扫一扫