分词的原理和认识以及工具的使用

本文介绍了中文分词的基本概念,包括字符匹配、理解法和统计法。重点讨论了正向与逆向最大匹配的原理,并提到了分词中的技术难点如歧义词和新词的处理。还介绍了结巴分词工具的功能,如精确、全和搜索引擎模式,以及支持自定义词典和HMM模型的应用。
摘要由CSDN通过智能技术生成

 

 

概念:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

 

 

字符匹配:

  • 正向最大匹配

  • 逆向最大匹配

  • 最少切分(使每句话中切分的词最少)

  • 双向最大匹配

逆向匹配的切分精度略高于正向匹配,遇见歧义的现象也比较少。

基本原理是,将字符串与字典中的内容进行匹配,找到匹配的长度最大的词语,就将它分割成一个词语。由于中文比较复杂,各种语境下的分词可能有些不同。所以一般在实现过程中,需要对扫描方式进行进一步的优化。

 

理解法:

让计算机模拟人类的思考方式去分析文章的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值