统计语言模型:N元语法模型(N-gram)

本文探讨了一阶至N阶马尔科夫假设在N-gram语言模型中的应用,重点讲解了Bi-gram模型如何简化单词出现概率计算,并介绍了如何从语料库中统计条件概率。理解这些概念有助于提高文本预测和自然语言处理的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

马尔科夫假设认为在一句话中,某单词的出现概率只与它前面的前 nnn 个单词有关。

2.2.1 Bi-gram

基于一阶马尔科夫假设衍生出Bi-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−1)(4) P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-1}) \tag{4} P(S)=P(W1,W2,,Wn)=P(W1)P(W2W1)P(WnWn1)(4)

式中条件概率从语料库中统计得到。

2.2.1 N-gram

同理可得,基于二阶及以上马尔科夫假设能生出N-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前 N-1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−N+1,…,Wn−1)(5) P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-N+1}, \dots , W_{n-1}) \tag{5} P(S)=P(W1,W2,,Wn)=P(W1)P(W2W1)P(WnWnN+1,,Wn1)(5)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值