jieba中文分词第三方库基本用法(python)

分词方法

cut jieba.cut(sentence, cut_all=False, HMM=True)
lcut 将cut返回的结果转换成列表。
load_userdict 使用用户自定义的词典

import jieba

sentence = '穿过国境长长的隧道就是雪国'

res = jieba.lcut(sentence, cut_all=True, HMM=True)
print('lcut全模式分词结果:', res)
res1 = jieba.lcut(sentence, cut_all=False, HMM=True)
print('lcut精确模式分词结果:', res1)

res2 = jieba.cut(sentence)
print('cut分词结果:', res2, '\n', list(res2))

jieba.load_userdict('word.txt')
res3 = jieba.lcut(sentence)
print('加入词典后的分词结果:', res3)

程序输出结果

>> lcut全模式分词结果: [‘穿过’, ‘国境’, ‘长长’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪’, ‘国’]
>> lcut精确模式分词结果: [‘穿过’, ‘国境’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪国’]
>> cut分词结果: <generator object Tokenizer.cut at 0x000001EB3950C740>
[‘穿过’, ‘国境’, ‘长长的’, ‘隧道’, ‘就是’, ‘雪国’]
>> 加入词典后的分词结果: [‘穿过’, ‘国境’, ‘长长的隧道’, ‘就是’, ‘雪国’]

其中word.txt文件中内容格式如下:(频率和词性可以省略,但格式不能乱)

词语1 频率 词性
词语2 频率 词性
...

在这里插入图片描述
可以看到,将"长长的隧道"加到个人词典里面,分词时作为一个词语处理。

获取词性

import jieba.posseg as posg

res4 = posg.cut(sentence)
for word,type in res4:
    print(word, type)

程序输出结果

>> 穿过 v
>> 国境 n
>> 长长的隧道 x
>> 就是 d
>> 雪国 ns

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值