四字弟弟领衔主演的《长安十二时辰》数据可视化分析

本文通过Python对《长安十二时辰》的豆瓣影评进行数据可视化分析,包括观众地域分布、评论词云图、情感分析等,揭示该剧在一线城市受欢迎程度高,观众情感以积极为主,部分好评可能源于主演易烊千玺的粉丝。
摘要由CSDN通过智能技术生成

《长安十二时辰》 6 月 27 日上映,豆瓣评分首日便达到了 8 分,热度并不低于当下热播的每一部剧。今天主要是对我用 Python 采集的豆瓣影评进行简单的可视化分析。
主要从五个方面分析:

  • 全国观众地域分布
  • 观众地域排行榜
  • 短评词云图
  • 评论数量与日期的关系
  • 各评分占比
  • 观众情感分析
  • 各评分占比

下面是分析的整个过程

一、理解数据

本数据集来源豆瓣,由于豆瓣在非登录状态下仅仅可以爬取200条短评,登录状下也只能可以爬取500条数据,所以数据集只有 500 条评论。包括:

  • 观众id
  • 观众评论
  • 观众地域
  • 评论日期
  • 推荐指数

二、处理数据

# 导入相关库
import pandas as pd
import matplotlib.pyplot as plt
import jieba
import re
import warnings
from pyecharts.charts import  Geo, Line, Pie, Bar
from pyecharts.globals import ChartType, SymbolType
from pyecharts.globals import ThemeType
from chinese_province_city_area_mapper.transformer import CPCATransformer
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from snownlp import SnowNLP

warnings.filterwarnings('ignore')
%matplotlib inline

1. 数据加载

df1 = pd.read_csv(r'C:\Users\86134\Desktop\douban\comments.csv')
df2 = pd.read_csv(r'C:\Users\86134\Desktop\douban\cities.csv')
df = pd.merge(df1, df2, left_index=True, right_index=True, how=
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值