N-gram 模型

最新推荐文章于 2021-09-17 16:39:38 发布

yu_tsl

最新推荐文章于 2021-09-17 16:39:38 发布

阅读量263

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yu_tsl/article/details/82355717

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

N-gram 模型

语言模型：定义了自然语言中标记序列的概率分布，通俗一点考虑就是说，一个句子是自然语句的概率。

举例说明：

假设用户说了这么一句话：“I have a gun”，因为发音的相似，该语音识别系统发现如下几句话都是可能的候选：1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了，到底哪一个是正确答案呢？

一般的解决方法是采用统计的方法。即比较上面的1、2和3这三句话哪一句在英语中出现的概率最高，哪句概率最高就把哪句返回给用户。那么如何计算一个句子出现的概率呢？说白了就是“数数”的方法。但是即使是“数数”也有很多种数法，其中，最简单的策略如下：

给定一个语料库，数出其中所有的长度为4的句子的个数，设为N，然后再看在这N个长度为4的句子中，“I have a gun”出现了多少次，不妨设为N0，那么句子“I have a gun”的概率就是N0/N。其它两个句子的概率也这么计算。

上述的这种数数方法，从逻辑上讲是完全OK的，但是因为自然语言的灵活多变性，以及语料库的规模总是有限的，对于一个稍长一点的句子，很可能语料库中根本就没有。比如说下面这个句子：“I am looking for a restaurant to eat breakfast”，直观上看，这句话在语料库中应该出现次数很多吧？但是如果把这句话输入到Google的搜索框中，点击搜索，你会发现返回的结果中根本就没有完全匹配上的。所以，我们需要提出更加有效的“数数”方法。

n-gram 模型定义：一个条件概率--给定前n-1个标记后的第n个标记的条件概率。该模型利用这些条件概率分布的乘积定义较长序列的概率分布。

公式表达：

P(w1,w2,⋯,wm)=P(w1)P(w2|w1)P(w3|w1,w2)⋯P(wm|w1,⋯,wm−1)

典型例子：

特别地，对于 n 取得较小值的情况
当 n=1, 一个一元模型（unigram model)即为

P(w1,w2,⋯,wm)=∏ P(wi)

当 n=2, 一个二元模型（bigram model)即为

P(w1,w2,⋯,wm)=∏ P(wi|wi−1)

当 n=3, 一个三元模型（trigram model)即为

P(w1,w2,⋯,wm)=∏ P(wi|wi−2，wi−1)

接下来的思路就比较明确了，可以利用最大似然法来求出一组参数，使得训练样本的概率取得最大值。

对于unigram model而言，其中c(w1,..,wn)c(w1,..,wn) 表示 n-gram w1,..,wnw1,..,wn 在训练语料中出现的次数，MM 是语料库中的总字数（例如对于 yes no no no yes 而言，M=5M=5）
P(wi)=C(wi)MP(wi)=C(wi)M
对于bigram model而言，
P(wi|wi−1)=C(wi−1wi)C(wi−1)P(wi|wi−1)=C(wi−1wi)C(wi−1)
对于nn-gram model而言，
P(wi|wi−n−1,⋯,wi−1)=C(wi−n−1,⋯,wi)C(wi−n−1,⋯,wi−1)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
N-gram 模型

N-gram 模型语言模型：定义了自然语言中标记序列的概率分布，通俗一点考虑就是说，一个句子是自然语句的概率。举例说明：假设用户说了这么一句话：“I have a gun”，因为发音的相似，该语音识别系统发现如下几句话都是可能的候选：1、I have a gun. 2、I have a gull. 3...
复制链接

扫一扫

专栏目录

yu_tsl CSDN认证博客专家 CSDN认证企业博客

码龄7年

12: 原创

32万+: 周排名

163万+: 总排名

3万+: 访问

: 等级

531: 积分

15: 粉丝

13: 获赞

6: 评论

67: 收藏

私信

关注

热门文章

分类专栏

最新评论

2018 阿里秋招面试心得
HardLifes.cpp: 博主，一年后怎么样了
2018 阿里秋招面试心得
TAlice: 博主后续呢
Python-机器学习入门及技巧总结
Steve1005 回复普通网友: 你好，解压密码是什么？
Python-机器学习入门及技巧总结
普通网友: Python机器学习全流程项目实战精讲（2018版）网盘地址：https://pan.baidu.com/s/1BLFXWHQz5wd-4T3nrAfgDw 提取码: bkj9 备用地址（腾讯微云）：https://share.weiyun.com/5VGzPK0 密码：yp4ri9
2018 阿里秋招面试心得
mr_guo_lei: 同秋招中，博主找到工作否

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。