CS224N学习笔记(2):skip-gram和negative sampling

本文是CS224N学习笔记的第二部分,主要介绍了Word2Vec模型中的skip-gram算法及其优化方法negative sampling。skip-gram通过预测上下文来理解单词含义,损失函数涉及softmax计算,而negative sampling则通过采样减少计算复杂性。此外,还对比了skip-gram与基于词频统计的Glove模型,讨论了它们的优缺点和评价指标。
摘要由CSDN通过智能技术生成

Word2Vec

简介

相比Onehotting编码方式:

  • 不能展示语义关系(不同词之间的点积为0)

修正方法:
分布相似性,通过理解上下文理解单词的含义(predict between every word and its context words)

  • 构建dense vector来预测上下文

算法:

  1. skip-gram
  2. CBOW(待扩充)

所有模型都是not convex,不初始化就都会陷入局部最优化

训练优化方法:

  1. Hierarchical softmax(待扩充)
  2. Negative sampling

Skip-gram

定义

基于中心词( w t w_t wt)去预测上下文( w t − s w_{t-s} wts w t + s w_{t+s} wt+s,领域是radius=s)的概率分布
损失函数
m a x J ( θ ) = ∏ t = 1 T ∏ − m ≤ j ≤ m , j ≠ 0 P ( w t + j ∣ w t ; θ ) max J(\theta)=\prod_{t=1}^T \prod_{-m \leq j \leq m, j\neq 0}P(w_{t+j}|w_t;\theta) maxJ(θ)=t=1Tmjm,j=0P(wt+jwt;θ)
可以转化为:
m i n J ( θ ) = − 1 T ∑ t = 1 T ∑ − m ≤ j ≤ m , j ≠ 0 log ⁡ P ( w t + j ∣ w t ) min J(\theta) = - \frac{1}{T}\sum_{t=1}^T\sum_{-m \leq j \leq m, j \neq 0} \log P(w_{t+j}|w_t) minJ(θ)=T1t=1Tmjm,j=0logP(wt+jwt)
其中,
P ( w t + j ∣ w t ) = P ( O ∣ C ) = e u o T v c ∑ w = j v e ( u w T v c ) P(w_{t+j}|w_t)=P(O|C)=\frac{e^{u_o^Tv_c}}{\sum_{w=j}^v e^{(u_w^Tv_c)}} P(wt+jwt)=P(OC)=

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值