NPL笔记——语言模型

语言模型总结:

1、含义
表示一个句子出现的概率,即一个句子中每个单词出现的概率。概率越高,表示越有可能构成一个句子。
2、原理
对联合概率链公式,利用马尔可夫链进行简化。马尔可夫链假设认为,每个词会依赖前面1个或多个词。最简单的时unigram,bigram,复杂点的trigram。
联合概率链公式:
P(x1,x2…xn) = P(x1)P(x2|x1)P(x3|x1,x2)P(x4|x1,x2,x3)…P(xn)P(x1,x2…xn-1)
2-gram:
P(x1,x2…xn) = P(x1)P(x2|x1)P(x3|x2)P(x4|x3)P(x5|x4)…P(xn|xn-1)
3、如何选区N-gram中的N

  • 一般tri-gram用的较多
  • 当n更大时:对下一个此的约束信息更多
  • 当n更小时:在训练语料库中出现的次数更多,更具有可靠的统计信息。避免零概率(稀疏矩阵)出现。

4、N-gram的应用

  • 词性标注?
  • 垃圾邮件识别
  • 中文分词
  • 机器翻译与语音识别

5、N-gram优缺点:
优点:可以表示单词与几个单词之间的联系
缺点:缺乏长程的依赖性(eg.上下文直接);缺乏可靠性(eg.wi-1与wi相邻,P(wi-1|wi)=N(wi-1,wi)同时在文本中出现的次数/N(wi)在文本中出现的次数),如果N(

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值