word2vec（一） CBOW与Skip-Gram模型基础

最新推荐文章于 2024-03-22 20:31:50 发布

浮汐

最新推荐文章于 2024-03-22 20:31:50 发布

阅读量2.2k

点赞数 3

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xfxlesson/article/details/104417405

版权

本文介绍了word2vec的基础，包括词向量的概念、one-hot representation和分布表示。重点讲解了word2vec的两种模型CBOW和Skip-gram，以及它们的工作原理，帮助理解如何通过神经网络学习词的语义信息。

摘要由CSDN通过智能技术生成

1. 词向量

词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。这样做的初衷就是机器只认识0 1 符号。所以，词向量是自然语言到机器语言的转换。
Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。

1.1 one-hot representation

一种最简单的词向量是one-hot represention，就是用一个很长的向量表示一个词，向量的长度为词典D的大小N，向量的分量只有一个1，其他都是0，1的位置对应该词在字典中的索引；也就是向量中每一个元素都关联着词库中的一个单词，指定词的向量表示为：其在向量中对应的元素设置为1，其他的元素设置为0。

例如

“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

优点：如果使用稀疏方式存储，非常简洁，实现时就可以用0,1,2,3,…来表示词语进行计算，这样“话筒”就为3，“麦克”为8.

缺点：
1.容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；
2.任何两个词都是孤立的，存在语义鸿沟词（任意两个词之间都是孤立的，不能体现词和词之间的关系）

最低0.47元/天解锁文章

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。