NLP常用工具包实战 (5)jieba中文分词器:全模式/精确模式切分词、添加自定义词典、关键词抽取、词性标注、wordcloud词云展示

本文介绍了jieba中文分词器的使用,包括全模式和精确模式进行分词操作,自定义词典的添加以提升分词准确性,关键词抽取以提取文本核心内容,以及词性标注功能。最后通过wordcloud进行词云展示,以直观呈现词频分布。
摘要由CSDN通过智能技术生成

1 全模式/精确模式切分词

import jieba
import jieba.analyse
import jieba.posseg as pseg

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

2 添加自定义词典

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"
# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值