使用python制作词云(重点对jieba库和wordcloud库进行介绍)

在海量数据中提取有效的信息,词云不愧是一种有效解决此类问题的方法,他可以突出显示关键词,快速提取有价值的信息。
Python制作词云很简单,要求不高的话,几行代码就可以搞定,主要使用的库有jieba(结巴,一种分割汉语的分词库)和wordcloud库。

一、jieba简介

jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

支持 3 种分词模式:精确模式、全模式、搜索引擎模式

用法

#全模式
seg_list = jieba.cut("今天真是个好天气。他来到了西安交通大学。", cut_all=True)
#精确模式
seg_list1 = jieba.cut("今天真是个好天气。他来到了西安交通大学。", cut_all=False)
#搜索引擎模式
seg_list2 = jieba.cut_for_search("今天真是个好天气。他来到了西安交通大学")
print("【全模式】:" + "/ ".join(seg_list))
print("【精确模式】:" + "/ ".join(seg_list1))
print("【搜索引擎模式】:" + "/ ".join(seg_list2))
"""
【全模式】:今天/ 天真/ 真是/ 个/ 好/ 天气/ 。/ 他/ 来到/ 了/ 西安/ 西安交通/ 西安交通大学/ 交通/ 大学/ 。
【精确模式】:今天/ 真是/ 个/ 好/ 天气/ 。/ 他/ 来到/ 了/ 西安交通大学/ 。
【搜索引擎模式】:今天/ 真是/ 个/ 好/ 天气/ 。/ 他/ 来到/ 了/ 西安/ 交通/ 大学/ 西安交通大学
"""

从结果上看,全模式是将所有词语分割出来,但会分割出我们不需要的词语,比如上面例子中的天真就是我们不希望出现的。如果我们做词云,常使用精确模式。搜索引擎常使用搜索引擎模式,将句子切割成关键词。

返回值

jieba.cut 返回值 <class ‘generator’>
jieba.lcut 返回值 <class ‘list’>
但切割的词是一致的

seg_list = jieba.cut("今天真是个好天气。他来到了西安交通大学。", cut_all=True)
print(type(seg_list))
print("【全模式】:" + "/ ".join(seg_list))
seg_list = jieba.lcut("今天真是个好天气。他来到了西安交通大学。", cut_all
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值