论文《Efficient Estimation of Word Representations in Vector Space》阅读心得

本来应该将Tomas的三篇论文一起读完再写的,但是因为这段时间事情比较多,先写一篇后面的再补上。由于自己刚开始看论文理解能力不够,如有错误欢迎大家指出来,我再修改。

    本片论文作者是Tomas Mikolov,他在谷歌是研究的是word2vec,现在跑去了facebook,都很厉害啊!这篇主要讲了word2vec与之前的语言模型例如 NNLM等在语义语法上、训练速度上的比较。总结来说有一下几点:

(1)研究在句法与语义上词表示的质量
(2)与流行的神经网络模型(前馈和递归)相比,使用非常简单的模型结构训练高质量的词向量是可能的。因为计算复杂度低得多,可以从更大的数据集中计算非常精确的高维单词向量。
(3)使用DistBelief,能够在trillion words 基础上训练CBOW和skip-gram,训练词汇数量级变大
(4)受益于本论文的模型的应用在其他NLP上工作更好

(5)机器翻译实验也很有希望

(6)高质量的词向量是NLP应用的基石

1.介绍

      之前大部分语言模型将词作为单位,而词的表示使用的多是用在词典中的index,这样表示简单、健壮、易观察但没有体现相似性概念。而且存在局限:领域词汇表现不好,机器翻译词库少;之前使用的数据集多是hundred of /millions of。

      文本的目标:本文使用的数据集billions of/millions of words;

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值