Glove词向量与FastText详解

共现信息

在这里插入图片描述
这里的环境可以有多个定义,但在这篇文章中,是给了一个窗口大小来规定环境。
在这里插入图片描述
上面这个公式表示任意一个词 k k k出新在 i i i的环境中的次数。
在这里插入图片描述
上面这个公式表示词 j j j出现在词 i i i环境中的次数。 P i j P_{ij} Pij是共现概率。

Glove公式推导

在这里插入图片描述
上图的ice环境与steam环境做除法,当k=固体,比值较大,说明固体与冰联系密切;同理,气体与水蒸气联系密切,所以比值较小。贡献概率比值如下公式:
在这里插入图片描述
我们现在是要设计一个函数可以表达上述两个概率相除,文中是这样设计的:
在这里插入图片描述
但是,上述等式中,右边是一个标量,而左边是向量,那么我们可以做如下变换:
在这里插入图片描述
现在,我们思考一下,词 i i i在词 k k k的环境中是不是等价于词 k k k在词 i i i的环境中?那么这个共现矩阵应当是对称的,这是一个限定条件,然后我们再做如下变换,将减法变成除法:
在这里插入图片描述
然后减法变除法可以将f函数令成指数函数,然后联立上述方程,如下所示:
在这里插入图片描述
然后取log,我们思考一下,词 i i i与词 k k k的地位是等价的,那么他俩应当可以互换,并且最后相乘的值不变,但是,下面这个公式却不能替换:
在这里插入图片描述
这时我们要继续做变换,我们使用偏移项去替换,然后现在就可以将 i i i k k k互换了。
在这里插入图片描述
这时我们得到一个最终的公式:v和b是神经网络学出来的,而词频 x i j x_{ij} xij是可以统计出来的:
在这里插入图片描述
下面是最终的损失函数,然后前面乘了个 f ( x i j ) f(x_{ij}) f(xij),因为每个词的词频不一样,导致后面的平方项的重要性程度不一样:
在这里插入图片描述
虽然 v i v_i vi v j v_j vj理论上等价,但由于初始化的时候不一样,结果会有细微差别,本文选取的最终词向量是他俩的和。
在这里插入图片描述

FastText

在这里插入图片描述
在这里插入图片描述
当fasttext遇到新词时,可以找子词去算新词的词向量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值