Stanford CS224N《深度学习自然语言处理》——1_Introduction and Word Vectors

本文介绍了词向量在自然语言处理中的应用,如Word2Vec模型,通过将单词转换为密集向量来捕捉上下文中的相似性和关系。模型训练目标是通过优化参数最小化损失,以最大化在给定中心词上下文中实际单词出现的概率。
摘要由CSDN通过智能技术生成

Representing word as discrete symbols
in traditional NLP, we regard words as discrete symbols: hotel, conference, motel - a localist representation
使用词向量表示,每个不同的词都有一个维度,这意味着对应我们词汇表中单词数量的巨大向量
在这里插入图片描述

Problem with words as discrete symbols
Example: in web search, if user searches for “Seattle motel”, we would like to match documents containing “Seattle hotel”
离散符号没有词的概念,关系和相似性。我们为不同的单词提供了一个单词向量,在正式数学意义上,这两个向量是正交的,它们之间没有任何自然的相似性概念
在这里插入图片描述
orthogonal
There is no natural notion of similarity for one-hot vectors
Solution: Could try to rely on WordNet’s list of synonyms to get similarity? 解决这种无法词向量找到直接找到相似性的问题:
But it is well-known to fail badly:incompleteness, etc.
Instead: learn to encode similarity in the vectors themselves. 在词向量本身中编码的相似性

Representing words by their context
使用“分布式语义“:一个词的意思由经常出现在它附近的词给出(上下文)
在这里插入图片描述
如何处理这种分布的语言模型?

Word vectors

we will build a dense vector for each word, chosen so that it is similar to vectors of words that appear in similar contexts.
我们将为每个单词构建一个密集向量,选择使其类似于出现在类似上下文中的单词的向量。
词嵌入(word embedding)是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。
比如在一个文本中包含“猫”“狗”“爱情”等若干单词,而这若干单词映射到向量空间中,“猫”对应的向量为(0.1 0.2 0.3),“狗”对应的向量为(0.2 0.2 0.4),“爱情”对应的映射为(-0.4 -0.5 -0.2)(本数据仅为示意)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn },这个映射的过程就叫做词嵌入。
之所以希望把每个单词都变成一个向量,目的还是为了方便计算,比如“猫”,“狗”,“爱情”三个词。对于我们人而言,我们可以知道“猫”和“狗”表示的都是动物,而“爱情”是表示的一种情感,但是对于机器而言,这三个词都是用0,1表示成二进制的字符串而已,无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量,机器便可对单词进行计算,通过计算不同词向量之间夹角余弦值cosine而得出单词之间的相似性。
在这里插入图片描述

Word2vec

该模型将词转化为“可计算“向量
idea:

  • 我们有一个很大的“语料库“
  • 每个在固定的词汇中的单词为自己创建向量
  • 文本中任何一个位置t,有一个中心词c,以及它之外的上下文词o
  • 用c和o词向量的相似性来计算上下文词出现的概率

word2vec详见另一篇文章词向量模型Word2Vec
在这里插入图片描述
Likelihood
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
softmax:
max normally takes a set of things and just returns one the biggest of them(因为max通常需要一组东西并只返回其中最大的一个), whereas the softmax is taking a set of numbers and scaling them(而softmax是取一组数字,并对其进行缩放), that is returning the whole probability distribution(即返回所有概率分布)

to train the model: Optimize value of parameters to minimize loss

在这里插入图片描述

that we maximize the probability of the words as we actually saw in the context of the center word.即最大化在中心词上下文中实际看到的词的概率

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值