读论文—统计语言模型综述

1.n-Gram 统计语言模型

n- gram 模 型于1980年提 出 来 , 是 一种 应用很 广 的统 计 语 言模 型。它 认为每个预测变量只与长度为n-1的上下文有关

模型问题:

然而 ,该方法存在一个问题 , 即可能存在某个 n-gr am, 它在学习语料集中没有出现 , 而可能出现在测试语料集中 ,类似的问题称作数据的稀疏问题。
我们需要对这些没有出现在学习语料中的n-gram估计一个不为0的值。

针对该模型的几种平滑处理方法:

1.1 Good-Turing方法

又称为折扣最大似然法,给定一个折扣系数,可证明经调整后,所有n-gram的概率和满足归一化性质
Good-Turning的优点:它可对训练语料中没有出现的m-gram直接估计出一个概率值,因此在平滑化处理中被广泛使用。随着模型阶数n的增加,数据稀疏问题也越来越严重。

1.2 插值法,kaze回退法

不是此处重点,故不一一介绍

1.3 n-gram模型两个问题

分析n-gram模型中存在两个互相矛盾的问题
一方面由于模型复杂性的制约 ,实际中一般只采 用很短的上下文 ,长度n的值一般为 2 ~ 7. 因此用于预测上下文信息太少,我们可以称其为上下文有限问题另一方面 在n-gram模型

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值