nlp基础—10.结巴分词的应用及底层原理剖析

最新推荐文章于 2023-03-27 00:30:00 发布

VIP文章哎呦-_-不错

最新推荐文章于 2023-03-27 00:30:00 发布

阅读量1.6k

点赞数 5

分类专栏： # nlp基础知识文章标签：结巴分词中文分词 HMM

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/118525752

版权

文章目录

引言

结巴分词用到的核心算法模型是隐马尔可夫模型。

一、HMM模型

隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。我们下面举一个例子来理解HMM模型。
在这里插入图片描述

如果想详细了解HMM模型的推导，可以参考：nlp基础—7.隐马尔可夫模型(HMM算法)。

二、中文分词方法

1.基于规则

基于字典、词库匹配的分词方法，基于字符串匹配分词。将待分的字符串与一个充分大的机器词典中的词条进行匹配。

正向最大匹配：对输入的句子从左至右，以贪心的方式切分出当前位置上长度最大的词，组不了词的字单独划开。其分词原理是：词的颗粒度越大，所能表示的含义越精确。
逆向最大匹配：原理与正向最大匹配相同，但顺序不是从首字开始，而是从末字开始，而且它使用的分词词典是逆序词典，其中每个词条都按逆序方式存放。在实际处理时，先将句子进行倒排处理，生成逆序句子，然后根据逆序词典，对逆序句子用正向最大匹配。
双向最大匹配：将正向最大匹配与逆向最大匹配组合起来，对句子使用这两种方式进行扫描切分，如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，选取分词结果中单个汉字数目较少的那一组

输入：
研究生研究自然语言处理是一个不错的研究方向
正向：
[‘研究生’, ‘研究’, ‘

最低0.47元/天解锁文章

哎呦-_-不错

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
nlp基础—10.结巴分词的应用及底层原理剖析

文章目录引言一、HMM模型二、中文分词方法1.基于规则2. 基于知识理解3. 基于统计三、Jieba分词原理引言结巴分词用到的核心算法模型是隐马尔可夫模型。一、HMM模型隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。我们下面举一个例子来理解HMM模型。如果想详细了解HMM模型的推导，可以参考：nlp基础—7.隐马尔可夫
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。