jieba中文分词第三方库基本用法(python)

最新推荐文章于 2024-10-14 09:08:48 发布

北山杉林

最新推荐文章于 2024-10-14 09:08:48 发布

阅读量232

点赞数

分类专栏： python学习文章标签： python 中文分词开发语言

本文链接：https://blog.csdn.net/weixin_50232758/article/details/129032753

版权

python学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

分词方法

cut jieba.cut(sentence, cut_all=False, HMM=True)
lcut 将cut返回的结果转换成列表。
load_userdict 使用用户自定义的词典

import jieba

sentence = '穿过国境长长的隧道就是雪国'

res = jieba.lcut(sentence, cut_all=True, HMM=True)
print('lcut全模式分词结果:', res)
res1 = jieba.lcut(sentence, cut_all=False, HMM=True)
print('lcut精确模式分词结果:', res1)

res2 = jieba.cut(sentence)
print('cut分词结果:', res2, '\n', list(res2))

jieba.load_userdict('word.txt')
res3 = jieba.lcut(sentence)
print('加入词典后的分词结果：', res3)

程序输出结果

>> lcut全模式分词结果: [‘穿过’, ‘国境’, ‘长长’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪’, ‘国’]
>> lcut精确模式分词结果: [‘穿过’, ‘国境’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪国’]
>> cut分词结果: <generator object Tokenizer.cut at 0x000001EB3950C740>
[‘穿过’, ‘国境’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪国’]
>> 加入词典后的分词结果： [‘穿过’, ‘国境’, ‘长长的隧道’, ‘就是’, ‘雪国’]

其中word.txt文件中内容格式如下：（频率和词性可以省略，但格式不能乱）

词语1 频率 词性
词语2 频率 词性
...

在这里插入图片描述
可以看到，将"长长的隧道"加到个人词典里面，分词时作为一个词语处理。

获取词性

import jieba.posseg as posg

res4 = posg.cut(sentence)
for word,type in res4:
    print(word, type)

程序输出结果

>> 穿过 v
>> 国境 n
>> 长长的隧道 x
>> 就是 d
>> 雪国 ns

北山杉林

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录