关于 Word2vec 的理解与感悟

最新推荐文章于 2023-11-07 15:48:04 发布

锲启

最新推荐文章于 2023-11-07 15:48:04 发布

阅读量733

点赞数

文章标签：人工智能自然语言处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44166997/article/details/107280633

版权

什么是 Word Embedding ？

在说明 Word2vec 之前，需要先解释一下 Word Embedding。它就是将“不可计算”“非结构化”的词转化为“可计算”“结构化”的向量。

Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的词嵌入方法。
在这里插入图片描述

Word2vec 的 2 种训练模式

CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model)，是Word2vec 的两种训练模式。下面简单做一下解释：

CBOW

通过上下文来预测当前值。相当于一句话中扣掉一个词，让你猜这个词是什么。
在这里插入图片描述
Skip-gram

用当前词来预测上下文。相当于给你一个词，让你猜前面和后面可能出现什么词。
在这里插入图片描述

优化方法

为了提高速度，Word2vec 经常采用 2 种加速方式：

Negative Sample（负采样）
Hierarchical Softmax
具体加速方法就不详细讲解了，感兴趣的可以自己查找资料。

Word2vec 的优缺点

Word2vec 是上一代的产物（18 年之前）， 18 年之后想要得到最好的效果，已经不使用 Word Embedding 的方法了，所以也不会用到 Word2vec。

优点：

1·由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比，效果要更好（但不如 18 年之后的方法）
2·比之前的 Embedding方法维度更少，所以速度更快
3·通用性很强，可以用在各种 NLP 任务中

缺点：

1·由于词和向量是一对一的关系，所以多义词的问题无法解决。
2·Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化

百度百科

Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于 Word2vec 的理解与感悟

什么是 Word Embedding ？在说明 Word2vec 之前，需要先解释一下 Word Embedding。它就是将“不可计算”“非结构化”的词转化为“可计算”“结构化”的向量。Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的词嵌入方法。Word2vec 的 2 种训练模式CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Mod
复制链接

扫一扫

锲启 CSDN认证博客专家 CSDN认证企业博客

码龄6年

56: 原创

31万+: 周排名

131万+: 总排名

18万+: 访问

: 等级

1916: 积分

44: 粉丝

104: 获赞

37: 评论

663: 收藏

私信

关注

热门文章

最新评论

将爬虫爬到的数据存入MySQL数据库
2301_80481690: 请问那个j in range(2,28)是指什么啊
逻辑回归中解决多重共线性问题
2020 08 13: vif是数据层面的操作，和模型没关系啊
逻辑回归中解决多重共线性问题
2401_83898826: 请教一下，logit回归用不了vif咋回事呢
pyecharts的官方中文文档及常见图表整理
当当小跟班: 现在官方文档好像已经不更新了许多用法都是错的
pandas日常处理笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。