政府工作报告词云
在这里插入代码片
import re
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库
# 读取文件
fn = open("政府工作报告.txt","r",encoding="utf-8")
string_data = fn.read()
fn.close()
# 文本预处理
# 定义正则表达式匹配模式
pattern = re.compile(u'\t|,|/|。|\n|\.|-|:|;|\)|\(|\?|"')
# 将符合模式的字符去除
string_data = re.sub(pattern,'',string_data)