Stanford CS224N《深度学习自然语言处理》——1_Introduction and Word Vectors

最新推荐文章于 2024-10-30 20:33:17 发布

Mafia.M.A

最新推荐文章于 2024-10-30 20:33:17 发布

阅读量221

点赞数

分类专栏：深度学习文章标签：深度学习自然语言处理 word

本文链接：https://blog.csdn.net/weixin_45427596/article/details/133778878

版权

深度学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本文介绍了词向量在自然语言处理中的应用，如Word2Vec模型，通过将单词转换为密集向量来捕捉上下文中的相似性和关系。模型训练目标是通过优化参数最小化损失，以最大化在给定中心词上下文中实际单词出现的概率。

摘要由CSDN通过智能技术生成

Introduction and Word Vectors

Representing word as discrete symbols
in traditional NLP, we regard words as discrete symbols: hotel, conference, motel - a localist representation
使用词向量表示，每个不同的词都有一个维度，这意味着对应我们词汇表中单词数量的巨大向量
在这里插入图片描述

Problem with words as discrete symbols
Example: in web search, if user searches for “Seattle motel”, we would like to match documents containing “Seattle hotel”
离散符号没有词的概念，关系和相似性。我们为不同的单词提供了一个单词向量，在正式数学意义上，这两个向量是正交的，它们之间没有任何自然的相似性概念
在这里插入图片描述
orthogonal
There is no natural notion of similarity for one-hot vectors
Solution: Could try to rely on WordNet’s list of synonyms to get similarity? 解决这种无法词向量找到直接找到相似性的问题：
But it is well-known to fail badly:incompleteness, etc.
Instead: learn to encode similarity in the vectors themselves. 在词向量本身中编码的相似性

Representing words by their context
使用“分布式语义“：一个词的意思由经常出现在它附近的词给出（上下文）
在这里插入图片描述
如何处理这种分布的语言模型？

Word vectors

we will build a dense vector for each word, chosen so that it is similar to vectors of words that appear in similar contexts.
我们将为每个单词构建一个密集向量，选择使其类似于出现在类似上下文中的单词的向量。
词嵌入（word embedding）是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称。
比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为（0.1 0.2 0.3），“狗”对应的向量为（0.2 0.2 0.4），“爱情”对应的映射为（-0.4 -0.5 -0.2）（本数据仅为示意）。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn }，这个映射的过程就叫做词嵌入。
之所以希望把每个单词都变成一个向量，目的还是为了方便计算，比如“猫”，“狗”，“爱情”三个词。对于我们人而言，我们可以知道“猫”和“狗”表示的都是动物，而“爱情”是表示的一种情感，但是对于机器而言，这三个词都是用0,1表示成二进制的字符串而已，无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量，机器便可对单词进行计算，通过计算不同词向量之间夹角余弦值cosine而得出单词之间的相似性。
在这里插入图片描述

Word2vec

该模型将词转化为“可计算“向量
idea:

我们有一个很大的“语料库“
每个在固定的词汇中的单词为自己创建向量
文本中任何一个位置t，有一个中心词c，以及它之外的上下文词o
用c和o词向量的相似性来计算上下文词出现的概率

word2vec详见另一篇文章词向量模型Word2Vec
在这里插入图片描述
Likelihood

softmax：
max normally takes a set of things and just returns one the biggest of them（因为max通常需要一组东西并只返回其中最大的一个）, whereas the softmax is taking a set of numbers and scaling them（而softmax是取一组数字，并对其进行缩放）, that is returning the whole probability distribution（即返回所有概率分布）