word2vec

最新推荐文章于 2024-04-12 16:17:52 发布

酸柠檬水

最新推荐文章于 2024-04-12 16:17:52 发布

阅读量600

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zr7116/article/details/93898431

版权

https://www.cnblogs.com/pinard/p/7249903.html 3/4 很好

4. Negative Sampling负采样方法

　　　　现在我们来看看如何进行负采样，得到neg个负例。word2vec采样的方法并不复杂，如果词汇表的大小为VV,那么我们就将一段长度为1的线段分成VV份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。每个词ww的线段长度由下式决定：

len(w)=count(w)∑u∈vocabcount(u)len(w)=count(w)∑u∈vocabcount(u)

　　　　在word2vec中，分子和分母都取了3/4次幂如下：

len(w)=count(w)3/4∑u∈vocabcount(u)3/4len(w)=count(w)3/4∑u∈vocabcount(u)3/4

　　　　在采样前，我们将这段长度为1的线段划分成MM等份，这里M>>VM>>V，这样可以保证每个词对应的线段都会划分成对应的小块。而M份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从MM个位置中采样出negneg个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。

　　　　在word2vec中，MM取值默认为108108。

原理

Word2Vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，某个语言模型指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法-Hierarchical Softmax或Negative Sampling。两个模型乘以两种方法，一共有四种实现。

Word2Vec得到以该词作为背景词和中心词的两组词向量。我们会使用连续词袋模型的背景词向量，使用跳字模型的中心词向量。

预备知识

sigmoid函数

逻辑回归

Bayes公式：语言模型P(Text)，声学模型P(Voice|Text)，语音识别P(Text|Voice)由前两个模型利用Bayes公式推导出来。

Huffman编码：Huffman树、Huffman树的构造、Huffman编码

语言模型

什么是统计语言模型呢？通俗地说，统计语言模型描述了一串文字序列成为句子的概率。

n-gram语言模型：模型参数

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
word2vec

https://www.cnblogs.com/pinard/p/7249903.html 3/4 很好4.Negative Sampling负采样方法　　　　现在我们来看看如何进行负采样，得到neg个负例。word2vec采样的方法并不复杂，如果词汇表的大小为VV,那么我们就将一段长度为1的线段分成VV份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段...
复制链接

扫一扫

专栏目录

酸柠檬水 CSDN认证博客专家 CSDN认证企业博客

码龄6年

107: 原创

6万+: 周排名

118万+: 总排名

11万+: 访问

: 等级

2171: 积分

15: 粉丝

35: 获赞

5: 评论

184: 收藏

私信

关注

热门文章

分类专栏

深度学习 17篇
机器学习 24篇
python 20篇

最新评论

KD树 Java实现
_yyykkk_: 看代码是从0维开始划分，缺少了通过求每个维度的方差，确定维度划分顺序的逻辑吧？
线性表之顺序表链表
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用标准目录；(2)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(3)使用更多的站内链接。
KD树 Java实现
2018wl: 我在大佬的评论区瑟瑟发抖,欢迎大佬回访我的博客
KD树 Java实现
Mr_circleT: 你好，问一下，有的区间进行查询时，会报一个空指针异常的错，不知道是为什么。。。。比如，给出代码的main中测试，查询[4,3]的近邻域，就会报错

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。