此篇教程划分为两种情况,原文本为汉字和原文本为英文,教程最后有实例提供参考。
Part1 原文本为汉字
若原文本为汉字,则需要指定WordCloud方法中的font_path为要使用的汉字字体路径,因为默认的wordcloud字体DroidSansMono.ttf 不支持汉字,且指定的字体文件需要放在wordcloud安装的文件夹下,我电脑中的路径为D:\Program Files\Python37\Lib\site-packages\wordcloud\simhei.ttf
否则生成的词云图片上会是彩色方框,而不会出现汉字。
源代码如下:
import jieba
from wordcloud import WordCloud
from scipy.misc import imread
mask= imread('picture.png') #此处为使用遮罩的情况,即生成的词云形状
file = open("sample.txt", "r", encoding='utf-8')
content = file.read()
words=jieba.lcut(content) # 使用jieba进行精确分词获取词语列表
txt