学习笔记——结巴分词

一.前言

结巴分词是一种文本领域常用的分词方法,目前已经在github上开源。其主要利用统计词典和当前文本,来推出前缀词典。基于前缀词典来构造一个前缀树,利用前缀树可以构造出有向无环图。最后通过动态规划算法,来计算得到最大概率路径,从而推出最终的切分形式。

二.分词步骤

以‘去北京大学玩’这个句子为例
1.统计词典:分别为词和对应的词频
北京大学 1200
北京 30000
大学 3500
去 12550
玩 3000
北 60000
京 45000
大 30000
学 12000

2.利用统计词典构造前缀词典:
北京大学的前缀:北 60000 北京 30000 北京大 0 北京大学1200
北京的前缀: 北 60000 北京30000
大学的前缀: 大3000 大学3500
去:12550
玩:3000
北:60000
京 : 45000
大: 30000
学: 12000

所以,综合一下整体的前缀词典是:
北:60000
北京:30000
北京大学:1200
大学:3500
去:12550
玩:3000
北:60000
京: 45000
大: 30000
学: 12000

3.利用前缀词典来构造有向无环图
在这里插入图片描述

4.最大概率路径计算
路径一:去/北/京/大/学/玩
路径二:去/北京/大/学/玩
路径三:去/北京/大学/玩
路径四:去/北京大学/玩

通过有向无环图可以得出这四种路径,最后通过动态规划来计算这四种路径中哪种路径的概率最大,来依次划分。

参考 https://zhuanlan.zhihu.com/p/58848504

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值