Graph探索之word2vec

最新推荐文章于 2024-03-06 09:55:02 发布

yao1131

最新推荐文章于 2024-03-06 09:55:02 发布

阅读量340

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/yao1131/article/details/103254433

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

谷歌无监督神器之word2vec

本文参考:https://blog.csdn.net/peghoty/article/details/37969979

word2vec是用来生成词向量的工具，是一种无监督的学习方法，将词语数字化后就可以做很多处理了。此处的词语向量化后其中的数字是有意义的，代表的是不同词语间的相似度。word2vec包含两个模型：CBOW和Skip-gram模型，其中基于这两个模型又提出了对应的改进措施：Hierarchical Softmax和Negative Sampling 两种优化。除了词向量，还可以有句向量，文档向量等。

预备知识之Huffman编码

对于word2vec中也会用到此编码，将训练语料中的词语的出现次数当作叶子结点的权值，通过相应的Huffman树构造对应的每个词编码。其中词频越大的词离根结点越近。
Huffman树构造过程
其中若叶子结点个数为n个，则构造的Huffman树中的新增结点个数为n-1个，此例中，总共有六个词对应六个叶子结点，对应新增5个结点。对应的Huffman编码方式如下：
在这里插入图片描述

一、Hierarchical Softmax

在这里插入图片描述

假设我们的目标词汇为足球，则对于足球来说，从根节点到目的地共经历了4次分支，可以对应看作四次二分类任务，分到左边就是正类，分到右边就是负类。结合逻辑回归函数，最后的损失函数对应的就是四次损失函数的级联相乘。
在这里插入图片描述

对于Skip-gram是同理。

二、Negative Sampling

Negative Sampling(简称为NEG)是NCE的一个简化版本，目的是用来提高训练速度并改善词向量的质量。其思想就是：在已知词w的上下文Context(w),需要预测w；那么对于给定的Context(w)，词w就是一个正样本，其他词就是负样本。对于正样本label给1，对于负样本label给0，此处负样本较多不一定全部选取。
在这里插入图片描述
这样以来损失函数就变成增加正样本的概率，降低负样本的概率，对于一个给定的语料库C，