wordcloud词云图和jieba分词，过滤不要的词句（停用词）

白粥bz

已于 2022-05-19 22:01:16 修改

阅读量6.5k

点赞数 9

分类专栏： python

于 2022-05-19 21:42:40 首次发布

本文链接：https://blog.csdn.net/you7110/article/details/124872346

版权

jieba分词词云停用词过滤 WordCloud 文本分析

关键词由CSDN通过智能技术生成

"""
生成中文词云步骤
1、读取文件内容
2、借助jieba分词库对中文进行分词，让后将结果合并，以空格隔开
3、打开图片文件，得到对应数组（可以设置图片的形状；图片中的白色部分不显示）
4、创建WordCloud对象，设置基本属性 （创建词云对象，将文本生成词云generate，再用画出词云图，并显示）
5、生成词云图，并保存或显示图片

中文中需要设置停用词的话可以有三种方法：(过滤不需要的）
1、在分词前，将中文文本的停用词先过滤掉。
2、分词的时候，过滤掉停用词。
3、在wordcloud中设置stopwords。

"""

import jieba  # 先安装pip install jieba
import wordcloud as wc  # 先安装pip install wordcloud
import matplotlib.pyplot as plt  # 用于显示图片
from PIL import Image
import numpy as np  # 先安装pip install numpy

# 词云图的形状mask
mask = np.array(Image.open('fivestar.png'))  # 读取图片 词云图样

# # 设置停用词(直接再代码设置）
# stopwords = ['的', '制度', '完善', '发展', '和', '□']
# wc.STOPWORDS.update(stopwords)

# 设置停用词(文件设置停用词; \ufeff 需要把编码模式改成utf-8-sig）
stopwords = set()
content = [line.strip() for line i

最低0.47元/天解锁文章

白粥bz

关注

9
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
wordcloud词云图和jieba分词，过滤不要的词句（停用词）

"""生成中文词云步骤1、读取文件内容2、借助jieba分词库对中文进行分词，让后将结果合并，以空格隔开3、打开图片文件，得到对应数组（可以设置图片的形状；图片中的白色部分不显示）4、创建WordCloud对象，设置基本属性（创建词云对象，将文本生成词云generate，再用画出词云图，并显示）5、生成词云图，并保存或显示图片中文中需要设置停用词的话可以有三种方法：(过滤不需要的）1、在分词前，将中文文本的停用词先过滤掉。2、分词的时候，过滤掉停用词。3、在wordcloud中设置.
复制链接

扫一扫

专栏目录