Introduction and Word Vectors
Representing word as discrete symbols
in traditional NLP, we regard words as discrete symbols: hotel, conference, motel - a localist representation
使用词向量表示,每个不同的词都有一个维度,这意味着对应我们词汇表中单词数量的巨大向量
Problem with words as discrete symbols
Example: in web search, if user searches for “Seattle motel”, we would like to match documents containing “Seattle hotel”
离散符号没有词的概念,关系和相似性。我们为不同的单词提供了一个单词向量,在正式数学意义上,这两个向量是正交的,它们之间没有任何自然的相似性概念
orthogonal
There is no natural notion of similarity for one-hot vectors
Solution: Could try to rely on WordNet’s list of synonyms to get similarity? 解决这种无法词向量找到直接找到相似性的问题:
But it is well-known to fail badly:incompleteness, etc.
Instead: learn to encode similarity in the vectors themselves. 在词向量本身中编码的相似性
Representing words by their context
使用“分布式语义“:一个词的意思由经常出现在它附近的词给出(上下文)
如何处理这种分布的语言模型?
Word vectors
we will build a dense vector for each word, chosen so that it is similar to vectors of words that appear in similar contexts.
我们将为每个单词构建一个密集向量,选择使其类似于出现在类似上下文中的单词的向量。
词嵌入(word embedding)是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。
比如在一个文本中包含“猫”“狗”“爱情”等若干单词,而这若干单词映射到向量空间中,“猫”对应的向量为(0.1 0.2 0.3),“狗”对应的向量为(0.2 0.2 0.4),“爱情”对应的映射为(-0.4 -0.5 -0.2)(本数据仅为示意)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn },这个映射的过程就叫做词嵌入。
之所以希望把每个单词都变成一个向量,目的还是为了方便计算,比如“猫”,“狗”,“爱情”三个词。对于我们人而言,我们可以知道“猫”和“狗”表示的都是动物,而“爱情”是表示的一种情感,但是对于机器而言,这三个词都是用0,1表示成二进制的字符串而已,无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量,机器便可对单词进行计算,通过计算不同词向量之间夹角余弦值cosine而得出单词之间的相似性。
Word2vec
该模型将词转化为“可计算“向量
idea:
- 我们有一个很大的“语料库“
- 每个在固定的词汇中的单词为自己创建向量
- 文本中任何一个位置t,有一个中心词c,以及它之外的上下文词o
- 用c和o词向量的相似性来计算上下文词出现的概率
word2vec详见另一篇文章词向量模型Word2Vec
Likelihood
softmax:
max normally takes a set of things and just returns one the biggest of them(因为max通常需要一组东西并只返回其中最大的一个), whereas the softmax is taking a set of numbers and scaling them(而softmax是取一组数字,并对其进行缩放), that is returning the whole probability distribution(即返回所有概率分布)
to train the model: Optimize value of parameters to minimize loss
that we maximize the probability of the words as we actually saw in the context of the center word.即最大化在中心词上下文中实际看到的词的概率