用Python绘制词云图

最新推荐文章于 2024-05-28 17:53:37 发布

喜碧夫人听众

最新推荐文章于 2024-05-28 17:53:37 发布

阅读量2.2w

点赞数 20

分类专栏： python 文章标签：数据分析 python 词云图

本文链接：https://blog.csdn.net/zhchs2012/article/details/79062632

版权

前言

词云图是数据分析中比较常见的一种可视化手段。
正好，Python下也有一款词云生成库，word_cloud：https://github.com/amueller/word_cloud
基于我之前爬取的微博数据，制作了一批词云图，由此来讲讲此模块的使用。

一、分词

1.1 制作停止词库

分词之前先准备一下停止词，因为中文中有很多的语气词啊，副词啊等，对于我们展现词频热度是无意义的干扰词。于是，我们就想个法子把他们排除掉。

def make_stopdict():
    stopdict = set()
    f = open("stopwords.txt","r") #网上下载来的停止词文本，近2000个，可以自己往里面添加
    lines = f.readlines()
    for l in lines:
        stopdict.add(l.strip())
    f.close()
    return stopdict
stopdict = make_stopdict()

1.2 分词

利用正则排除掉分词后符号、数字、emoji表情等不容易表明意义的内容，只保留中英文。
分词用的是jieba分词，中文分词领域的大佬：https://pypi.python.org/pypi/jieba/

最低0.47元/天解锁文章

喜碧夫人听众

关注

20
点赞
踩
116

收藏

觉得还不错? 一键收藏
1
评论
用Python绘制词云图

前言词云图是数据分析中比较常见的一种可视化手段。正好，Python下也有一款词云生成库，word_cloud：https://github.com/amueller/word_cloud 基于我之前爬取的微博数据，制作了一批词云图，由此来讲讲此模块的使用。一、分词1.1 制作停止词库分词之前先准备一下停止词，因为中文中有很多的语气词啊，副词啊等，对于我们展现词频热度是无意
复制链接

扫一扫

专栏目录