Graph探索之word2vec

谷歌无监督神器之word2vec

本文参考:https://blog.csdn.net/peghoty/article/details/37969979

  word2vec是用来生成词向量的工具,是一种无监督的学习方法,将词语数字化后就可以做很多处理了。此处的词语向量化后其中的数字是有意义的,代表的是不同词语间的相似度。word2vec包含两个模型:CBOW和Skip-gram模型,其中基于这两个模型又提出了对应的改进措施:Hierarchical Softmax和Negative Sampling 两种优化。除了词向量,还可以有句向量,文档向量等。

预备知识之Huffman编码

   对于word2vec中也会用到此编码,将训练语料中的词语的出现次数当作叶子结点的权值,通过相应的Huffman树构造对应的每个词编码。其中词频越大的词离根结点越近
Huffman树构造过程
其中若叶子结点个数为n个,则构造的Huffman树中的新增结点个数为n-1个,此例中,总共有六个词对应六个叶子结点,对应新增5个结点。对应的Huffman编码方式如下:
在这里插入图片描述
在这里插入图片描述

一、Hierarchical Softmax

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
假设我们的目标词汇为足球,则对于足球来说,从根节点到目的地共经历了4次分支,可以对应看作四次二分类任务,分到左边就是正类,分到右边就是负类。结合逻辑回归函数,最后的损失函数对应的就是四次损失函数的级联相乘。
在这里插入图片描述

对于Skip-gram是同理。

二、Negative Sampling

Negative Sampling(简称为NEG)是NCE的一个简化版本,目的是用来提高训练速度并改善词向量的质量。其思想就是:在已知词w的上下文Context(w),需要预测w;那么对于给定的Context(w),词w就是一个正样本,其他词就是负样本。对于正样本label给1,对于负样本label给0,此处负样本较多不一定全部选取。
在这里插入图片描述
这样以来损失函数就变成增加正样本的概率,降低负样本的概率,对于一个给定的语料库C,

作为整体优化目标。

对于负样本过多的采样方法

在这里插入图片描述

三、Word2vec的各种优化变种

其实上边两个都是word2vec的优化策略,可以加速运行(待续)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值