word2vec中一种模型的理解

最新推荐文章于 2023-01-27 18:48:40 发布

上杉绘梨衣-

最新推荐文章于 2023-01-27 18:48:40 发布

阅读量449

点赞数

分类专栏： word2vec

本文链接：https://blog.csdn.net/wjlwangluo/article/details/64161899

版权

word2vec 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

定义及符号

文本集合（Text）： T

单词（word）： w，使用长度为d的列向量表示

语境（context）:以单词 w 为中心，向前k个单词，向后k个单词所形成的短语中包含的单词

模型参数： θ

条件概率p( c | w )：当 w 出现时，某一语境 c 出现的概率

C( w )：在文本集合 T 中，单词 w 出现过的语境包含的单词的集合

语境中的单词 c，使用长度为d的列向量表示 c ∈ C( w )

c和 w 均表示单词，但作者认为，即使对于同一个单词，比如apple，它作为普通单词和作为语境中的单词是的向量表示是不同的，因此使用不同的符号来表示语境中的单词和普通单词。

V：文本集合对应的词汇表

D：所有单词 w 和它的语境 C( w ) 构成的组合的集合

Skip-gram

Skip-gram的目标是寻找参数集合 θ来最大化如下条件概率的乘积：

等同于下式：

作者使用了逻辑回归的扩展Softmax [4] 对 θ 进行形式化处理，使得条件概率转化为下式：

其中vc和vw分别是 c 和 w 的列向量，维度为d。 C 是所有语境中的单词构成的集合，等同于词汇表V。参数 θ 就是vc和vw中每一维度的具体取值，参数的总数为|C| ×|V|× d 。将式3代入式2，并于等式两边取对数可得：

作者认为，通过训练得到的单词的向量表示vw能够使得条件概率p(c|w)最大化，则vw是w的好的表示。这里潜在的基本假设是：相似的单词拥有相似的语境。换言之，特定的语境只有确定的语义才能够与之匹配。通过最大化条件概率，使得单词和语境之间的对应关系最大化，进而满足了基本假设：相似的单词拥有相似的语境。而满足条件概率最大化的单词矢量，也就成为了单词语义的合理表示。

从式3可以发现，由于条件概率 p( c | w )的分母计算需要很大代价，作者使用hierarchical softmax来近似softmax，并用霍夫曼树来构建hierachical softmax.

Negative Sampling

另一种降低计算代价的方法是改变目标函数。对于一个单词、语境组合（ w, c ），使用p(D=1| w, c )来表示这个组合存在于 T 中的概率，对应的 p(D=0| w, c ) = 1- p(D=1| w, c ) ，表示（ w, c ）不在 T 中的概率。与前文类似，假设集合 θ是控制 p(D=1| w, c )分布的参数，那么此时的目标是寻找参数集合θ来最大化（ w, c ）存在于 T 中的概率：

同样，使用softmax来量化p(D=1| w, c; θ )：

因此，最终的目标函数为：

为了使目标函数最大化，有一个很简单的方法，即使得vc=vw,且vc·vw=K。当K足够大时，可以得到 p(D=1| w, c )=1，从而达到目标函数最大化。因此，为了所有的矢量有相同的值，作者生成了一个数据集D'，D'中的所有单词、语境组合都不存在于 T 中，这些样例被称之为反例（negative examples）,而获得反例的采样方法被称之为反例采集（negative-sampling）。引进了反例之后的目标函数演变为：