NLP基础—2.文本预处理

最新推荐文章于 2024-06-23 17:11:20 发布

哎呦-_-不错

最新推荐文章于 2024-06-23 17:11:20 发布

阅读量516

点赞数 1

分类专栏： # nlp基础知识文章标签：文本预处理分词拼写纠错停用词过滤词的标准化

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/118017768

版权

本文介绍了NLP中的文本预处理技术，包括最大匹配和基于语言模型的分词方法，探讨了拼写纠错的编辑距离算法，阐述了停用词过滤的重要性，并详细讲解了词干提取和词形还原在词的标准化过程中的应用。

摘要由CSDN通过智能技术生成

文章目录

一、分词

中文中常用的分词工具（Word Segmentation Tools）有JieBa分词，SnowNlp，HanLP。

1.最大匹配分词法

最大匹配分词法是一种基于字符串匹配和规则的方法，这种方法依赖于词典的信息，对于词典以外的信息，认为没有见过。最大匹配分词法会优先考虑长词，如果优先考虑短词则是最小匹配分词法。如果从前往后匹配则是前向匹配，如果从后往前匹配则是后向匹配。
在这里插入图片描述

以前向最大匹配法，这句话会分成
他说的确实在理
以后向最大匹配法，这句话会分成
他说的确实在理

在汉语中，后向匹配的准确率比前向匹配的准确率高，这是因为汉语中存在中心词偏后的现象。
最大匹配法的缺点是什么？
这种方法的优势在于切分简单，很容易将待切分的字符串分成不同的词，但是这种方法很容易生成不符合语法逻辑的分词结果，不符合汉语常用的语法规则（不像人话）。

2.基于语言模型的分词

语言模型可以说是自然语言处理中最重要的模型。语言模型可以看做是一个函数，用于计算一个句子出现的概率，即语言模型可以判断某一句话是不是人话。那么我们怎么利用语言模型进行分词呢？我们可以采取这样的套路，对于待切分的句子，我们生成所有可能的切分，使用语言模型对所有可能的分词模型进行打分，选择概率最高的作为分词结果，最终得到最符合语言模型的结果。其原理为：
在这里插入图片描述
这样求解下来，容易出现数据稀疏问题，如果假设：假设每个词的出现概率是独立的，那样，就可以将上面的条件概率分布简化为如下一元语言模型：

最低0.47元/天解锁文章

哎呦-_-不错

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP基础—2.文本预处理

文章目录一、分词1.最大匹配分词法2.基于语言模型的分词二、拼写纠错1. 如何解决错别字错误？三、停用词过滤四、词的标准化—normallzation1.Stemming—词干提取2. Lemmatization—词形还原一、分词中文中常用的分词工具（Word Segmentation Tools）有JieBa分词，SnowNlp，HanLP。1.最大匹配分词法最大匹配分词法是一种基于字符串匹配和规则的方法，这种方法依赖于词典的信息，对于词典以外的信息，认为没有见过。最大匹配分词法会优先考虑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。