1、背景介绍
2、 摘要:
提出了一种新的词向量学习方法GloVe, GloVe能够同时利用全局的统计信息和局部的上下文信息从而学习到非常好的词向量
3、 准备工作
前人工作介绍,主要介绍矩阵分解和Word2vec两种方法
4、 介绍:
矩阵分解和Word2vec学习词向量的方式各有优劣,本文提出的GloVe同时学习者两种信息
5、 模型介绍:
介绍GloVe的推导过程,GloVe与其他模型之间的联系,GloVe的复杂度分析
6、实验:
实验探究GloVe模型的效果,以及对某些超参数的分析
7、总结
0、论文背景知识
词共现矩阵
1. I enjoy flying。
2. I like NLP。
3. I like de
ep learning
基于上下文的向量学习方法 Word2Vec
缺点:无法使用全局的统计信息
研究成果: 在词对推理数据集上取得最好的结果, 公布了一系列基于GloVe的预训练词向量
1、摘要
当前词向量学习模型能够通过向量的算术计算捕捉词之间细微的语法和语义规律,但是这种规律背后的原理依旧不清楚。经过仔细的分析,我们发现了一些有助于这种词向量规律的特性,并基于词提出了一种新的对数双线性回归模型,这种模型能够利用全局矩阵分解和局部上下文的优点来学习词向量。我们的模型通过只在共现矩阵中的非0位置训练达到高效训练的目的。我们的模型在词对推理任务上得到75%的准确率,并且在多个任务上得到最优结果。
分析:
我们可以使用一些词来描述一个词,比如我们使用冰块和蒸汽来描述固体、气体、水和时尚四个词。
与冰块接近,并且和蒸汽不接近:固体并且概率比值很大
与蒸汽接近,并且和冰块不接近:气体并且概率比值很小
与冰块和蒸汽都不接近: 水和时尚并且概率比值不大不小
结论: 共现矩阵的概率比值可以用来区分词 概率计算为条件概率
(1)为了描述 Wi 和 Wj 的差异可以使用Wi 和 Wj 做减法生成公式(2)
Wi 和 Wj 是描述差异的,同时右侧的比值为标量,如何把左侧的转化成右侧标量
令F=exp,可以有以下推导流程:
可推导出 (7)
原理:词对出现次数越多,那么这两个词在loss函数中的影响越大。
f(X_ij )需要满足:
•X_ij=0时, f(X_ij )=0:表示没有共现过的权重为0,不参加训练
•非减函数,因为共现次数越多,权重越大
•f(X_ij )不能无限制的大,防止is,are,the的影响
训练集的softmax 处理和word2Vec 的 skip-gram 中心词预测周围词的方式一致
Xij 表示有效词向量
Pij = Xij/ Xi 所以 Xij = Pij*Xi
上面公式中: Pij 为数据的真实分布,Qij 为训练分布 H(Pi,Qi) 表示交叉熵损失函数
由于 差的平方内部元素可以交换,有下公式
对比下面的GloVe 公式:
(15) (16) 相似
论文中指出f(Xij) 比Word2Vec 中的Xi 效果更好一些
实验结果与分析
•在词对推理数据集上取得最好的结果
•多个词相似度任务上取得最好的结果
•向量长度对结果的影响
•窗口大小对结果的影响
•和Word2vec对比实验