NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

沐漜

于 2019-05-14 16:38:28 发布

阅读量2.1k

点赞数 3

分类专栏： NLP 文章标签： NLP N-Gram 平滑

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyq11223/article/details/90209782

版权

使用N-Gram模型时的数据平滑算法

背景:为什么要做平滑处理?
　　零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。

平滑技术
平滑技术是为了解决训练集的数据稀松问题。
零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。
　一般的m阶马尔科夫链转移概率是这样训练的：
在这里插入图片描述

在这里插入图片描述
参考：https://blog.csdn.net/zhengwantong/article/details/72403808

在之前的文章《自然语言处理中的N-Gram模型详解》里，我们介绍了NLP中的模型。最后谈到，为了解决使用N-Gram模型时可能引入的稀疏数据问题，人们设计了多种平滑算法，本文将讨论其中最为重要的几种。

Add-o

最低0.47元/天解锁文章

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

使用N-Gram模型时的数据平滑算法背景:为什么要做平滑处理?　　零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。平滑技术平滑技术是为了解决训练集的数...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。