目录
一.Word2vec(详见我的另一篇博客)
1.skip-gram和CBOW的区别
Word2Vec主要有skip-gram和CBOW两种模型。skip-gram是给定input word来预测上下文,比较适合用于大规模的数据集上。cbow是给定上下文,来预测input word,比较适合用于小规模的数据集上,能够对很多的分布式信息进行平滑处理。
2.相比于简单的神经网络模型的优点
相比于简单的神经网络模型,word2vec在输入层的维数要更少(简单的NN是通过拼接上下文的词向量,而word2vec中的CBOW通过累加求和,skip-gram则不用),而且层数更少(简单NN有隐层,而word2vec无隐层),复杂度降低(输出改成了层次化的softmax,而不是简单的softmax),增加了负采样,提升性能。
3.词嵌入应该怎样获取
可以看到训练过程有两个词向量矩阵,有两种处理办法:(1)将两个矩阵相加(2)将两个矩阵拼接,扩展词向量的维度
4.word2vec为什么能学习出语义相似的词语?
word2vec是基于上下文的语言模型,而现代统计NLP最成功的的思想之一就是通过一个单词的上下文可以得到它的语义。如果一个词的上下文和另一个词的上下文相似,则说明它们的语义是相似的。