学习笔记——结巴分词

最新推荐文章于 2023-03-27 00:30:00 发布

dastu

最新推荐文章于 2023-03-27 00:30:00 发布

阅读量281

点赞数

分类专栏：数据挖掘文章标签： nlp 自然语言处理大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44467105/article/details/112093234

版权

数据挖掘专栏收录该内容

25 篇文章 0 订阅

订阅专栏

一.前言

结巴分词是一种文本领域常用的分词方法，目前已经在github上开源。其主要利用统计词典和当前文本，来推出前缀词典。基于前缀词典来构造一个前缀树，利用前缀树可以构造出有向无环图。最后通过动态规划算法，来计算得到最大概率路径，从而推出最终的切分形式。

二.分词步骤

以‘去北京大学玩’这个句子为例
1.统计词典：分别为词和对应的词频
北京大学 1200
北京 30000
大学 3500
去 12550
玩 3000
北 60000
京 45000
大 30000
学 12000

2.利用统计词典构造前缀词典:
北京大学的前缀：北 60000 北京 30000 北京大 0 北京大学1200
北京的前缀：北 60000 北京30000
大学的前缀：大3000 大学3500
去：12550
玩:3000
北：60000
京： 45000
大： 30000
学： 12000

所以，综合一下整体的前缀词典是：
北：60000
北京：30000
北京大学：1200
大学：3500
去：12550
玩：3000
北：60000
京： 45000
大： 30000
学： 12000

3.利用前缀词典来构造有向无环图
在这里插入图片描述

4.最大概率路径计算
路径一：去/北/京/大/学/玩
路径二：去/北京/大/学/玩
路径三：去/北京/大学/玩
路径四：去/北京大学/玩

通过有向无环图可以得出这四种路径，最后通过动态规划来计算这四种路径中哪种路径的概率最大，来依次划分。

参考 https://zhuanlan.zhihu.com/p/58848504

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记——结巴分词

一.前言结巴分词是一种文本领域常用的分词方法，目前已经在github上开源。其主要利用统计词典和当前文本，来推出前缀词典。基于前缀词典来构造一个前缀树，利用前缀树可以构造出有向无环图。最后通过动态规划算法，来计算得到最大概率路径，从而推出最终的切分形式。二.分词步骤以‘去北京大学玩’这个句子为例1.统计词典：分别为词和对应的词频北京大学 1200北京 30000大学 3500去 12550玩 3000北 60000京 45000大 300
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。