NLP基础—2.文本预处理

本文介绍了NLP中的文本预处理技术,包括最大匹配和基于语言模型的分词方法,探讨了拼写纠错的编辑距离算法,阐述了停用词过滤的重要性,并详细讲解了词干提取和词形还原在词的标准化过程中的应用。
摘要由CSDN通过智能技术生成

一、分词

  中文中常用的分词工具(Word Segmentation Tools)有JieBa分词SnowNlpHanLP

1.最大匹配分词法

  最大匹配分词法是一种基于字符串匹配和规则的方法,这种方法依赖于词典的信息,对于词典以外的信息,认为没有见过。最大匹配分词法会优先考虑长词,如果优先考虑短词则是最小匹配分词法。如果从前往后匹配则是前向匹配,如果从后往前匹配则是后向匹配。
在这里插入图片描述

以前向最大匹配法,这句话会分成
他 说 的确 实在 理
以后向最大匹配法,这句话会分成
他 说 的 确实 在理

在汉语中,后向匹配的准确率比前向匹配的准确率高,这是因为汉语中存在中心词偏后的现象。
最大匹配法的缺点是什么?
  这种方法的优势在于切分简单,很容易将待切分的字符串分成不同的词,但是这种方法很容易生成不符合语法逻辑的分词结果,不符合汉语常用的语法规则(不像人话)。

2.基于语言模型的分词

  语言模型可以说是自然语言处理中最重要的模型。语言模型可以看做是一个函数,用于计算一个句子出现的概率,即语言模型可以判断某一句话是不是人话。那么我们怎么利用语言模型进行分词呢?我们可以采取这样的套路,对于待切分的句子,我们生成所有可能的切分,使用语言模型对所有可能的分词模型进行打分,选择概率最高的作为分词结果,最终得到最符合语言模型的结果。其原理为:
在这里插入图片描述
这样求解下来,容易出现数据稀疏问题,如果假设:假设每个词的出现概率是独立的,那样,就可以将上面的条件概率分布简化为如下一元语言模型:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值