Word2Vec

最新推荐文章于 2024-09-15 22:41:03 发布

weixin_46125345

最新推荐文章于 2024-09-15 22:41:03 发布

阅读量71

点赞数

分类专栏： NLP 文章标签： word2vec 自然语言处理机器学习

本文链接：https://blog.csdn.net/weixin_46125345/article/details/120887909

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Word2Vec

2.词向量
3.为什么不使用one-hot向量？
4. word2vec
5.跳字模型skip-gram
6.连续词袋模型
7.近似训练法
8.负采样
9.层序softmax

1.为方便神经网络处理词，需将句子分词，并把这些词通过某些办法映射成词向量。

2.词向量

是用来表示词的向量，也可被认为是词的特征向量。把词映射为实数域向量的技术也叫词嵌入（word embedding）。

3.为什么不使用one-hot向量？

因为one-hot 词向量无法表达不同词之间的相似度，例如，任何一对词的 one-hot 向量的余弦相似度都为 0。
在这里插入图片描述

4. word2vec

2013 年，Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型：跳字模型（skip-gram）和连续词模型（continuous bag of words，简称 CBOW），以及两种高效训练的方法：负采样（negative sampling**）和层序 softmax**（hierarchical softmax）。值得一提的是，word2vec 词向量可以较好地表达不同词之间的相似度和类比关系