神经语言模型_逐段解读

本文探讨了神经语言模型如何通过分布词向量解决统计语言模型中的维度灾难问题,避免了n-grams方法的局限性。通过训练,模型能够为未在语料库中出现的上文生成向量表示,提高了模型的泛化能力。实验结果显示,神经语言模型在处理更长的上下文时比n-grams表现更好,并提出了针对未登录词(OOV)的解决方案。
摘要由CSDN通过智能技术生成

原文:Kandola, E. J. , Hofmann, T. , Poggio, T. , & Shawe-Taylor, J. . (2006). A neural probabilistic language model. Studies in Fuzziness & Soft Computing, 194, 137-186.
原文地址A Neural Probabilistic Language Model
关于语言模型n-grams的内容,参见系列博文语言模型:n-grams

摘要

统计语言模型的目的是为了获取序列的联合概率分布,最经典的做法就是基于前文来推断下文。
P ( x 0 , x 1 , . . . , x t ) = P ( x 0 ∣ < s t a r t > ) ∏ i = 0 t ( x i ∣ x i − 1 , . . , x 0 ) P ( < e n d > ∣ x t ) P(x_0,x_1,...,x_t) =P(x_0|<start>) \prod_{i=0}^t(x_i|x_{i-1},..,x_0)P(<end>|x_t) P(x0,x1,...,xt)=P(x0<start>)i=0t(xixi1,..,x0)P(<end>xt)
对于那些未出现在词库中的句子(很显然会出现),这里的条件概率只能是0,导致数据矩阵稀疏,最终会引发维度灾难
为此,基于马尔可夫假设的n-grams方法提出,只选取部分前文(short lapping,一般n<4)作为变量计算条件概率。
P ( x t + 1 ∣ x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值