数据可视化-《白蛇2：青蛇劫起》（3）

最新推荐文章于 2024-06-14 11:20:52 发布

五彩大铁猿

最新推荐文章于 2024-06-14 11:20:52 发布

阅读量257

点赞数 1

分类专栏：数据分析文章标签： python windows 数据分析 jupyter

本文链接：https://blog.csdn.net/weixin_47314602/article/details/126018048

版权

数据分析专栏收录该内容

9 篇文章 0 订阅

订阅专栏

喝瓶旺仔咱们继续 ......

7影评词云分析

下载

pip install jieba (如果一次下载没成功，就多下几次，不行了就上网查)

pip install jieba

collections 统计词量

import jieba
import wordcloud
import collections

lcurt以列表形式对字符串进行切割

jieba.lcut(df['评论'][0])

运行结果图如下：

我这边是有一个停用词文件（stopwords.txt），大家也可以在网上查找一下资源。

将停用词放在stop_words中，并且将停用词中的\n切掉。

代码展示如下：

with open('stopwords.txt','r',encoding='utf-8')as fp:
    words=fp.readlines()
    
stop_words = []
for word in words:
    w = word.strip('\n')#将单词中的反斜杠n切掉
    stop_words.append(w)
stop_words

运行结果图：

停用词处理：

接下来我们开始对停用词进行处理，word_list = jieba.lcut(comment)。

然后对word_list做遍历，去掉停用词（可去网上找停用词资源）

#停用词处理
good_words =[]

for comment in df['评论']:
    word_list = jieba.lcut(comment)
    
    #对word_list做遍历，去掉停用词（去网上找停用词资源）
    for word in word_list:
        if word not in stop_words:
            good_words.append(word)

在下面这个代码中我们进行字体类型（蒙纳超刚黑简.ttf）的应用，并向词云对象配置词数数据，最终展示图片。代码如下：

c = collections.Counter(good_words)

wc = wordcloud.WordCloud(font_path='蒙纳超刚黑简.ttf',width=500,height=300,
                        background_color='white',
                        max_font_size=200,
                        min_font_size=5,
                        max_words=1000)
#向词云对象配置词数数据
wc.generate_from_frequencies(c)

#展示图像
plt.imshow(wc)

运行结果如下：这个时候的词云大小颜色啥的都是由系统默认给出，如图所示：

，

从PIL中导入Image的图片

from PIL import Image

在上一个词云代码的基础上，我们给它添加了一个爱心的背景图片，并且给词云定义一种颜色由深到浅的，然后顺便将图旁边的横纵坐标关掉。代码如下：

back_image = Image.open(r'C:\Users\1\Desktop\1.png')

c = collections.Counter(good_words)

#调画布
plt.figure(figsize=(12,7))

wc = wordcloud.WordCloud(font_path='蒙纳超刚黑简.ttf',width=500,height=300,
                        background_color='white',
                         #背景颜色为白色
                        max_font_size=200,
                        min_font_size=5,
                          #调节词的大小为5-200
                        max_words=1000,
                         #最多能容纳词的数量为1000
                        mask=np.array(back_image),   
                         #放图片
                        colormap=sns.dark_palette('pink',as_cmap=True)  
                         #调词云颜色为一种颜色由深到浅的紫色，记得设置as_cmap=True这个参数，否则代码无法识别这个作为颜色参数处理
                        )
#向词云对象配置词数数据
wc.generate_from_frequencies(c)

#展示图像
plt.imshow(wc)
#把图旁边的横纵轴关掉
plt.axis('off')