CS224n 斯坦福深度自然语言处理课笔记 Lecture03—高级词向量表示

一、word2cev
1、回顾skip-grams

word2vec的主要步骤是遍历整个语料库,利用每个窗口的中心词来预测上下文的单词,然后对每个这样的窗口利用SGD来进行参数的更新。在这里插入图片描述
对于每一个窗口而言,我们只有2m+1个单词(其中m表示窗口的半径),因此我们计算出来的梯度向量是十分稀疏的。我们会在每个窗口更新损失函数。对于2dv的参数而言,我们只能更新一小部分。因此一个解决方法是提供一个单词到词向量的哈希映射。
在这里插入图片描述

2、负采样(negative sampling)

在word2vec的计算中有一个问题是条件概率的分母计算很复杂。
在这里插入图片描述
我们可以使用负采样来解决这个问题。负采样的中心思想是:只对可以配对的训练一些二元逻辑回归,因此我们保留了想要优化和最大化中心词和外围词内积的想法(分子),相对于遍所有单词,实际上只取一些随机单词并指明这些从语料库其余部分取出的随机词是不同时出现的。[ 训练一个二元逻辑回归,其中包含一对真正的中心词和上下文词,以及一些噪音对(包含中心词和一个随机的单词)。]

这种方法来源于这篇文献:“Distributed Representations of Words and Phrases and their Compositionality” (Mikolov et al. 2013)。
在这里插入图片描述
具体的目标函数如下,第一行:T对应需要遍历语料库的每个窗口;第二行:其中k表示的是负样本的个数,σ表示sigmoid函数(实际上sigmoid函数是把任意实数值压缩至0到1之间,方便学习时称它为概率),σ(-x)=1-σ(x),第一项是正样本,第二项是负样本。换而言之,目标函数表示我们希望真正的上下文单词出现的概率尽量大,而在中心词周围的随机单词出现的概率尽量小。
在这里插入图片描述
我们假设随机选取的噪音单词是遵循下面的公式,其中U(W)表示一元模型的分布,之所以加上一个3/4的幂是因为,希望减少那些常用的单词被选中的概率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值