wordcloud词云图和jieba分词,过滤不要的词句(停用词)

"""
生成中文词云步骤
1、读取文件内容
2、借助jieba分词库对中文进行分词,让后将结果合并,以空格隔开
3、打开图片文件,得到对应数组(可以设置图片的形状;图片中的白色部分不显示)
4、创建WordCloud对象,设置基本属性 (创建词云对象,将文本生成词云generate,再用画出词云图,并显示)
5、生成词云图,并保存或显示图片

中文中需要设置停用词的话可以有三种方法:(过滤不需要的)
1、在分词前,将中文文本的停用词先过滤掉。
2、分词的时候,过滤掉停用词。
3、在wordcloud中设置stopwords。

"""

import jieba  # 先安装pip install jieba
import wordcloud as wc  # 先安装pip install wordcloud
import matplotlib.pyplot as plt  # 用于显示图片
from PIL import Image
import numpy as np  # 先安装pip install numpy

# 词云图的形状mask
mask = np.array(Image.open('fivestar.png'))  # 读取图片 词云图样

# # 设置停用词(直接再代码设置)
# stopwords = ['的', '制度', '完善', '发展', '和', '□']
# wc.STOPWORDS.update(stopwords)

# 设置停用词(文件设置停用词; \ufeff 需要把编码模式改成utf-8-sig)
stopwords = set()
content = [line.strip() for line i
  • 9
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值