word2vec之Negative Sampling理解

最新推荐文章于 2021-12-07 16:08:00 发布

一条赖皮狗

最新推荐文章于 2021-12-07 16:08:00 发布

阅读量1.5k

点赞数

分类专栏： word2vec 深度学习 nlp

本文链接：https://blog.csdn.net/yinkun6514/article/details/79220477

版权

本文深入解析word2vec中的Negative Sampling技术，探讨它如何改进CBOW和Skip-Gram模型，提高性能，以及如何有效地选择负样本。Negative Sampling通过带权重的采样策略处理高频和低频词汇，优化了模型的训练过程。

摘要由CSDN通过智能技术生成

word2vec之Negative Sampling理解

本文章将介绍基于Negative Sampling的CBOW和Skip-Gram模型。与Hierarchical Softmax相比，Negative Sampling不需要构建复杂的Huffman树，以及进行多次二分类，而是利用简单的随机负采样，能大幅度提高性能。因而可以说Negative Sampling是Hierarchical Softmax的一种改进。

1 CBOW模型

在cbow模型中，已知的是上下文 $context(w)$ ，需要去预测词语 $w$ 。所以可以换种说法，对于特定的 $context(w)$ ，词语 $w$ 是其正样本，其他词语就是其负样本。但是负样本那么多，我们如何高效的去选择负样本，这就牵涉到Negative Sampling算法。首先，我们假设已经采样到一个负样本集合 $NEG(w) \neq \phi$ 。对于一个 $\widetilde{w}$ ，定义一个标签：
$\iota (\widetilde{w}) = 1$ 当 $\widetilde{w} = w$
$\iota (\widetilde{w}) = 0$ 当 $\widetilde{w} \neq w$
所以类似逻辑回归，我们定义了一个如下的公式：
$p(u|context(w))) = \delta (x_{w}^{T}\theta ^{u})$ 当 $\iota (\widetilde{w}) = 1$
$p(u|context(w))) = 1- \delta (x_{w}^{T}\theta ^{u})$ 当 $\iota (\widetilde{w}) = 0$
将其写成一个正式为：

$p (u | c o n t e x t (w))) = δ (x T w θ u) ι w (u) (1 - δ (x T w θ u)) 1 - ι w (u)$ $p(u|context(w))) =\delta (x_{w}^{T}\theta ^{u})^{\iota ^{w}(u)}(1 - \delta (x_{w}^{T}\theta ^{u}))^{1- \iota ^{w}(u)}$
假设词语之间相互独立，我们希望最大化的是：
$g (w) = \prod u ϵ w ⋃ N E G w p (u | c o n t e x t (w)) = \prod u ϵ w ⋃ N E G w δ (x T w θ u) ι w (u) (1 - δ (x T w θ u)) 1 - ι w (u)$ $g(w) = \prod_{u\epsilon {w}\bigcup NEG{w}}p(u|context(w)) = \prod_{u\epsilon {w}\bigcup NEG{w}}\delta (x_{w}^{T}\theta ^{u})^{\iota ^{w}(u)}(1 - \delta (x_{w}^{T}\theta ^{u}))^{1- \iota ^{w}(u)}$
对于一个给定的语料库 $C$ ，假设其中各词语相互独立，所以整体函数为:
$G = \prod_{w ϵ C} g (w)$ $G = \prod_{w\epsilon C}g(w)$
为了求得 $g(w)$ 的最大值，我们对上式进行最大似然估计：
$ι = l o g (G) = l o g$

最低0.47元/天解锁文章

一条赖皮狗

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
word2vec之Negative Sampling理解

word2vec之Negative Sampling理解本文章将介绍基于Negative Sampling的CBOW和Skip-Gram模型。与Hierarchical Softmax相比，Negative Sampling不需要构建复杂的Huffman树，以及进行多次二分类，而是利用简单的随机负采样，能大幅度提高性能。因而可以说Negative Sampling是Hierarchica
复制链接

扫一扫

专栏目录