前言
词云图是数据分析中比较常见的一种可视化手段。
正好,Python下也有一款词云生成库,word_cloud:https://github.com/amueller/word_cloud
基于我之前爬取的微博数据,制作了一批词云图,由此来讲讲此模块的使用。
一、分词
1.1 制作停止词库
分词之前先准备一下停止词,因为中文中有很多的语气词啊,副词啊等,对于我们展现词频热度是无意义的干扰词。于是,我们就想个法子把他们排除掉。
def make_stopdict():
stopdict = set()
f = open("stopwords.txt","r") #网上下载来的停止词文本,近2000个,可以自己往里面添加
lines = f.readlines()
for l in lines:
stopdict.add(l.strip())
f.close()
return stopdict
stopdict = make_stopdict()
1.2 分词
利用正则排除掉分词后符号、数字、emoji表情等不容易表明意义的内容,只保留中英文。
分词用的是jieba分词,中文分词领域的大佬:https://pypi.python.org/pypi/jieba/