《长安十二时辰》 6 月 27 日上映,豆瓣评分首日便达到了 8 分,热度并不低于当下热播的每一部剧。今天主要是对我用 Python 采集的豆瓣影评进行简单的可视化分析。
主要从五个方面分析:
- 全国观众地域分布
- 观众地域排行榜
- 短评词云图
- 评论数量与日期的关系
- 各评分占比
- 观众情感分析
- 各评分占比
下面是分析的整个过程
一、理解数据
本数据集来源豆瓣,由于豆瓣在非登录状态下仅仅可以爬取200条短评,登录状下也只能可以爬取500条数据,所以数据集只有 500 条评论。包括:
- 观众id
- 观众评论
- 观众地域
- 评论日期
- 推荐指数
二、处理数据
# 导入相关库
import pandas as pd
import matplotlib.pyplot as plt
import jieba
import re
import warnings
from pyecharts.charts import Geo, Line, Pie, Bar
from pyecharts.globals import ChartType, SymbolType
from pyecharts.globals import ThemeType
from chinese_province_city_area_mapper.transformer import CPCATransformer
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from snownlp import SnowNLP
warnings.filterwarnings('ignore')
%matplotlib inline
1. 数据加载
df1 = pd.read_csv(r'C:\Users\86134\Desktop\douban\comments.csv')
df2 = pd.read_csv(r'C:\Users\86134\Desktop\douban\cities.csv')
df = pd.merge(df1, df2, left_index=True, right_index=True, how=