北大新开源的分词工具pkuseg

最新推荐文章于 2024-05-12 15:22:56 发布

小杨算法屋

最新推荐文章于 2024-05-12 15:22:56 发布

阅读量4.8k

点赞数 2

分类专栏：自然语言处理文章标签：分词 pkuseg

本文链接：https://blog.csdn.net/yangfengling1023/article/details/86352550

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

北京大学新开源了一个中文的分词工具包，即pkuseg，相比于现在已有的开源工具，pkuseg大幅度的提升了分词的准确率。它在多个分词数据集上都有非常高的分词准确率，我们所知道的，也经常使用的结巴分词误差率高达 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 与 4.32%。

github地址为：https://github.com/lancopku/PKUSeg-python

1、安装

pip install pkuseg

使用的之前需要 import pkuseg 将相关的包导入进来

2、使用

2.1 使用默认模型及默认词典分词

代码如下所示：

import pkuseg
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('我的博客名字摆渡者，目前在南京工作')  # 进行分词
print(text)

运行的结果如下所示：

2.2 设置用户自定义词典

代码如下所示：

import pkuseg
lexicon = ['博客名字']  # 希望分词时用户词典中的词固定不分开
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加载模型，给定用户词典
text = seg.cut('我的博客名字摆渡者，目前在南京工作')  # 进行分词
print(text)

运行的结果如下所示：

也可以自己加载模型，具体在github上有举例子说明

3、评价

（1）在实际的分词过程中，花费的时间较长，系统的稳定性低
（2）只有分词的结果，并没有显示出分词之后的词性
（3）该工具与当前比较成熟的分词工具相比较，有比较高的准确度，但需要实践的检验

小杨算法屋

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
1
评论
北大新开源的分词工具pkuseg

北京大学新开源了一个中文的分词工具包，即pkuseg，相比于现在已有的开源工具，pkuseg大幅度的提升了分词的准确率。它在多个分词数据集上都有非常高的分词准确率，我们所知道的，也经常使用的结巴分词误差率高达 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 与 4.32%。github地址为：https://github.com/lancopku/PKUSeg-pyth...
复制链接

扫一扫