word2vector

最新推荐文章于 2024-03-28 20:53:02 发布

tuntunwang

最新推荐文章于 2024-03-28 20:53:02 发布

阅读量315

点赞数

分类专栏：数据挖掘文章标签： word2vecotr w2v

本文链接：https://blog.csdn.net/tuntunwang/article/details/106114177

版权

数据挖掘专栏收录该内容

30 篇文章 0 订阅

订阅专栏

参考文献
https://www.jianshu.com/p/1405932293ea

用途====================
将语料库中的词转化为向量，方便后续在词向量的基础上进行各种计算。

实现方法1=============
最常见的方法是counting编码
N(i,j)表示，单词i和单词j同时出现的次数
这种方法存在3个问题：每个单词的向量都很稀疏。虽然可以通过SVD降维，但是这个降维过程需要的计算量也很大；
向量没有包含单词的语义内容，只是简单的数量统计；
当有新的单词加入后，整个向量都需要更新。

实现方法2=============
skip gram
该方法可以解决上述三个问题
首先将所有单词进行one-hot编码，构造训练样本X和Y，输入到只有一个隐藏层的神经网络中，定义好loss后进行训练。
训练结束后，用隐藏层的权重来作为单词的向量表示。
自动编码器也是用一个只有隐藏层的神经网络进行训练，用隐藏层的输出作为最终输出，完成向量的压缩。
不同的是，这里用的是隐藏层的权值，自动编码器用的是隐藏层的输出。
如何生成样本？ n-gram
对于每一个文章，从第一个单词x开始，滑动窗口为n，向前向后，找到2*n 个y，组成2*n个样本(x,y)。其中x和y都是独热后的向量。
经验值n=5
神经网络的结构？
输出层和输出层的神经网络个数都是语料库的长度N，隐藏层的神经元个数由用户指定。
如果用户希望最终得到的单词的向量长度为k，那么就将隐藏层的神经元个数设置为k。
隐藏层的神经元没有激活函数，y=sum(wx)
输出层的神经元的激活函数为softmax函数，y=softmax(sum(wx))。这样可以使得输出向量是一个概率分布，加起来为1.
softmax(x)=e^x/sum(e^x)

损失函数为交叉熵损失函数
e=sum(t*y)
t表示目标标签，y=softmax(sum(wx))

比较常见的损失函数，还有平方差函数等。

最后可以得到一个 N*k的矩阵
一个行向量代表一个单词的向量。

优化=============
https://www.jianshu.com/p/d0e2d00fb4f0
原始的方法，会使得网络非常大。
优化方法主要有3个：
方法1：把某些词组和短语看做某个单词，不进行拆分。
例如，对于“中华人民共和国”，就不必进行拆分成：”中华“ ”人民“ ”共和国“

方法2：对该频次进行抽样
对于出现频率较高的参数，按照概率值删除。频率越高，删除的概率越高。有公式。

方法3：负采样
原始的训练，每个样本都会更新所有的权值。这里会抽取某些样本权值进行更新：
从应该为0的维度中，随机选取一些修改权值。当然还有加上维度应该为1的神经元。
抽取的概率，由该单词出现的次数决定。有公式。

试下方法3================
http://www.cnblogs.com/pinard/p/7160330.html
CBOW
他的神经网络结构和skip-gram是反过来
Skip-gram模式是根据中间词，预测前后词，CBOW模型刚好相反，根据前后的词，预测中间词。

这种方法的优化：霍夫曼树。
叶子结点起到了输出层神经元的作用。叶子结点的个数为输出层神经元的个数。
内部节点起到了隐藏层的作用。

为什么不直接用DNN？
词汇表一般百几万及，用DNN复杂度太高。

skip gram 和 CBOW成立的前提是什么？
词之间的先后顺序对模型的效果没有影响。

tuntunwang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vector

参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量，方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示，单词i和单词j同时出现的次数这种方法存在3个问题：每个单词的向量都很稀疏。虽然可以通过SVD降维，但是这个降维过程需要的计算量也很大；向量没有包含单词的语义内容，只是简单的数量统计；当有新的单词加入后，整个向量
复制链接

扫一扫

专栏目录