本来应该将Tomas的三篇论文一起读完再写的,但是因为这段时间事情比较多,先写一篇后面的再补上。由于自己刚开始看论文理解能力不够,如有错误欢迎大家指出来,我再修改。
本片论文作者是Tomas Mikolov,他在谷歌是研究的是word2vec,现在跑去了facebook,都很厉害啊!这篇主要讲了word2vec与之前的语言模型例如 NNLM等在语义语法上、训练速度上的比较。总结来说有一下几点:
(1)研究在句法与语义上词表示的质量
(2)与流行的神经网络模型(前馈和递归)相比,使用非常简单的模型结构训练高质量的词向量是可能的。因为计算复杂度低得多,可以从更大的数据集中计算非常精确的高维单词向量。
(3)使用DistBelief,能够在trillion words 基础上训练CBOW和skip-gram,训练词汇数量级变大
(4)受益于本论文的模型的应用在其他NLP上工作更好
(5)机器翻译实验也很有希望
(6)高质量的词向量是NLP应用的基石
1.介绍
之前大部分语言模型将词作为单位,而词的表示使用的多是用在词典中的index,这样表示简单、健壮、易观察但没有体现相似性概念。而且存在局限:领域词汇表现不好,机器翻译词库少;之前使用的数据集多是hundred of /millions of。
文本的目标:本文使用的数据集billions of/millions of words;