NLP—5.word2vec论文精读

最新推荐文章于 2024-02-20 17:09:35 发布

哎呦-_-不错

最新推荐文章于 2024-02-20 17:09:35 发布

阅读量531

点赞数 1

分类专栏： NLP学习论文解读文章标签： word2vec 论文精读

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/119611418

版权

语言模型是用于计算一个句子出现的概率，即语言模型可以判断某一句话从语法上是否通顺（是不是人话），从语义上是否有歧义。在很多时候，我们都要度量一句话的出现概率，一句话的出现概率等同于一句话语法的流畅程度。

有一些词或者词组在语料中没有出现过，但是这不能代表它不可能存在。平滑操作就是给那些没有出现过的词或者词组也给一个比较小的概率。
平滑概念指的是试图给没有出现的N-gram分配一个比较合理的数值出来，不至于直接为0。下面介绍多种平滑策略：

语言模型实质上是一个多分类问题（这只是一种理解方式，类别是每个词）。下面介绍一种新的评价指标—perplexity（困惑度）
在这里插入图片描述
perplexity越低，表明语言模型认为这句话出现的概率越高，这句话越有可能出现。困惑度最小是1。句子概率越大，语言模型越好，困惑度越小。

one-hot编码
“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]
表示简单，
问题：词越多，维数越高（词表大小V）无法表示词和词之间关系
分布式表示（稠密表示）
维度D(D<<V)

通过词与词之间的余弦相似度来表示词和词之间的关系

以如下两篇word2vec文章进行精读，第二篇文章是对第一篇文章细节部分的补充。
在这里插入图片描述
$向量空间中词表示的有效估计$

$单词和短语的分布式表示及其组成$

本文与前馈神经网络语言模型（NNLM）和循环神经网络语言模型（RNNLM）进行对比。

在这里插入图片描述
这个模型也就是所谓的N-gram模型。根据前n-1个单词，预测第n个位置单词的概率，使用梯度下降法优化模型，使得输出的正确的单词概率最大化。

语言模型是无监督任务（不需要标注语料）。那么没有标注的语料是如何做监督学习的呢？根据前n-1个单词，预测第n个位置单词，这样就可以利用无标注语料进行监督学习。

输入层
将词映射成向量，相当于一个 $1 \times V$ 的one-hot向量乘以一个 $V \times D$ 的向量得到一个 $1 \times D$ 的向量

在上图前馈神经网络语言模型中，可以使用 $1 \times [(n - 1) \times V] \times [(n - 1) \times V] \times D = 1 \times D$ 并行计算加速。
隐藏层
一个以tanh为激活函数的全连接层
$a = t a n h (d + W x)$
输出层
一个全连接层，后面接一个softmax函数来生成概率分布。
$y = b + U a$
其中y是一个 $1 \times V$ 的向量,使用softmax进行归一化

关注