【精读系列】GloVe: Global Vectors for Word Representation

GloVe是一种基于计数统计的词向量学习方法,结合了全局矩阵分解和局部上下文窗口模型的优势,优于Word2Vec。通过共现矩阵和概率比率学习词向量,采用带权最小二乘作为目标函数,解决了传统模型的某些问题。实验表明,GloVe在词类比、词相似性和命名实体识别任务上表现出色。
摘要由CSDN通过智能技术生成

本论文介绍了一种基于计数统计的词向量学习方法 GloVe,作者实验说明效果优于 Word2Vec 模型。
阅读完成时间:20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method,所谓 count-based method 一般指利用两个词一起出现的次数统计信息;

Word2Vec 模型属于 prediction-based method,一般指神经网络方法,根据一些词预测新词。



word analogy 为词的类比任务,word similarity 为词的相似性任务,Named Entries Recognition 为命名实体识别,这三个任务用于验证词向量的优劣

word analogy:该任务考察用词向量来推断不同单词间的语义关系,举个直观的例子, ′ k i n g ′ − ′ q u e e n ′ + ′ w o m a n ′ = m a n 'king'-'queen'+'woman'=man kingqueen+woman=man。(The word analogy task consists of questions like, “a is to b as c is to ?”)。任务流程为,对于 a − b + d a-b+d ab+d 计算出词向量,找到与该词向量最相似的单词(的词向量)作为唯一匹配,只有与给定匹配结果一致才算选择正确。

word similarity:该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为,计算词向量间的余弦值作为相似性分数,计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数(Spearman’s rank correlation coefficient),以评估词向量的优劣。



long tail:长尾分布,少部分的类别占据了大部分样本数量,大部分类别只占据很少的样本。

power-law:幂律分布,图像体现为长尾,与齐夫(Zipf)定律图像类似。

generalized harmonic number:广义调和级数, ∑ n = 1 k 1 n p \sum\limits_{n=1}^k \frac{1}{n^p} n=1knp1,有的认为 ∑ n = 1 ∞ 1 n p \sum\limits_{n=1}^∞ \frac{1}{n^p} n=1np1 也为广义调和级数。

Riemann zeta function:黎曼 ζ \zeta ζ 函数, ζ ( s ) = ∑ n = 1 ∞ 1 n s \zeta(s)=\sum\limits_{n=1}^∞ \frac{1}{n^s} ζ(s)=n=1ns1



Symmetric context:能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context:只扩展到左边的上下文窗口称为非对称窗口。



log-bilinear model:对数双线性模型,简称LBL。

Given the context w 1 : n − 1 w_{1:n−1} w1:n1, the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:
r ^ = ∑ i = 1 n − 1 C i r W i \hat r=\sum_{i=1}^{n-1}C_i r_{W_i} r^=i=1n1CirWi
r w r_w rw is the real-valued vector representing word w w w.

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary
P ( w n = w ∣ w 1 : n − 1 ) = exp ⁡ ( r ^ T r w ) ∑ j exp ⁡ ( r ^ T r j ) P(w_n=w\mid w_{1:n-1}) =\frac{\exp(\hat r^Tr_w)}{\sum_j\exp(\hat r^Tr_j)} P(wn=ww1:n1)=jexp(r^Trj)exp(r^Trw)

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art:最先进的。多篇论文都用到了这个词。

outperform:超过。



未知模型:(可以作为学习列表)

① Hyperspace Analogue to Language (HAL)

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL


Abstract

提出了一种新的全局log双线性回归模型,这种模型结合了“全局矩阵分解(global matrix factorization)”和“局部上下文窗口(local context window methods)”两类模型的优点。

常见的“全局矩阵分解”模型有,LSA;

常见的“局部上下文窗口”模型有,skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息,但在处理 analogy task 上效果不佳;而“局部上下文窗口”虽然能很好地处理 analogy task,但是会错过语料库中一些信息的重复性(即重复性也会提供一定的信息)。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作,指出他们存在的一些问题,进而希望引出作者的模型。

  1. Matrix Factorization Methods
  2. Shallow Window-Based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息,但是对于“如何根据统计信息产生意义”,以及“词向量又是如何表示这些意义的”仍然存在问题,或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向,当然不考虑正确性的前提下,这论文也比较早了,说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors,表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵,记为 X X X X i j X_{ij} Xij 表示单词 i i i 的上下文窗口内单词 j j j 的出现总数(注意窗口会滑动,所以可能存在多个窗口影响 X i j X_{ij} Xij 的值); X i = ∑ k X i k X_i=\sum_kX_{ik} Xi=kXik 表示出现在单词 i i i 上下文窗口的单词总数; P i j = P ( j ∣ i ) = X i j / X i P_{ij}=P(j\mid i)=X_{ij}/X_i Pij=P(ji)=Xij/Xi 表示单词 j j j 出现在单词 i i i 上下文窗口中的可能性。

作者采用概率之比,即比率,来度量单词之间的相关性。对于任意一个单词 k k k,如果 P ( k ∣ i ) P ( k ∣ j ) ≫ 1 \frac{P(k\mid i)}{P(k\mid j)} \gg 1 P(kj)P(ki)1,则说明单词 k k k 与单词 i i i (语法或语义)相似;如果 P ( k ∣ i ) P ( k ∣ j ) ≪ 1 \frac{P(k\mid i)}{P(k\mid j)} \ll 1 P(kj)P(ki)1,则说明单词 k k k 与单词 j j j (语法或语义)相似;如果接近 q q q,则说明单词 k k k 与单词 i i i j j j 均不相似。相比于直接使用概率作为从共现矩阵中获取的信息,采用比率学习词向量的可解释性更强。

作者的简单对比。

i i i 代表 i c e ice ice j j j 代表 s t e a m steam steam。这两个词的关系可以通过他们与某个词 k k k 的共现概率之比得到。例如, k k k 是某个和 i c e ice ice 相关但是和 s t e a m steam steam 无关的词,比如 k = s o l i d k=solid k=solid,那么 P i k P j k P_{ik}\over P_{jk} PjkPik 将会很大;而当 k k k s t e a m steam steam 相关但是和 i c e ice ice 无关时,比如 k = g a s k=gas k=gas 这个比值将会很小。还有 k k k 和两个词相关( k = w a t e r k=water k=water) 或者和两个词不相关( k = f a s h i o n k=fashion k=fashion),这个比值将接近于 1 1 1

比率 P i k P j k P_{ik}\over P_{jk} PjkPik 依赖于单词 i i i j j j k k k,关系可表示为
F ( w i , w j , w ~ k ) = P i k P j k (1) F(w_i,w_j,\tilde w_k) = \frac{P_{ik}}{P_{jk}}\tag{1}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不牌不改

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值