对不起！《唐人街探案3》和《你好，李焕英》相比，我更推荐《你好，李焕英》！

最新推荐文章于 2024-07-23 14:36:35 发布

Python与Excel之交

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量1k

点赞数 2

分类专栏： python数据可视化文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_49669074/article/details/113846880

版权

python数据可视化专栏收录该内容

4 篇文章 2 订阅

订阅专栏

作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容

hi~大家好！

自春节以来，《唐人街探案3》和《你好，李焕英》两部电影的热搜就没有停过，“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录！
在这里插入图片描述
两部电影上映七天，票房也双双进入30亿，其它电影成为陪衬！

两部电影虽然热评不断，但对《唐人街探案3》的评价却是极底，而《你好，李焕英》却好评不断！《唐人街探案3》在豆瓣的评分为5.7，超底的评分却有超高的票房，这不得不说让观众很失望！反之《你好，李焕英》以极底的成本却获取了超高的评分和票房！
在这里插入图片描述

数据可视化

接下来让我们看下观众眼里的两部电影！

本次爬虫较为简单，就不再讲解。本文爬取了豆瓣电影中的短评，因为豆瓣有限制，爬取的是较为火热的短评，数据量较少，所以本文的意见仅供参考，纯属娱乐，切勿上纲上线！

导入需要用到的模块：

import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType 
import stylecloud
from IPython.display import Image

导入数据，两个文件的格式一致，一共500条数据：

df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好，李焕英.csv')

在这里插入图片描述
删除重复项：

df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()

查看数据信息：

df1.info()
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     498 non-null    object
 1   有用      498 non-null    int64 
 2   评分      498 non-null    object
 3   日期      498 non-null    object
 4   评论      498 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     494 non-null    object
 1   有用      494 non-null    int64 
 2   评分      493 non-null    object
 3   日期      488 non-null    object
 4   评论      494 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB

发现df2有缺失值，这里为了方便，直接删除掉：

df2.dropna(axis=0, how='any', inplace=True)
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     487 non-null    object
 1   有用      487 non-null    int64 
 2   评分      487 non-null    object
 3   日期      487 non-null    object
 4   评论      487 non-null    object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB

《唐人街探案3》

1、最赞短评

点赞最多的TOP10短评：
在这里插入图片描述

df1["有用"] = df1["有用"].astype('float')	# 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]

从这十条短评中可以看到：点赞最高的是“电影里插入广告”，评论最多的“剧情拼凑、分裂”，接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’（四星）的只有一个。

2、评分占比

各个评分占比中，过一半占比为很差和较差，共占比69.88%：
在这里插入图片描述

df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (
        Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add("", list(zip(data_region,data_value)))
        .set_global_opts(legend_opts = opts.LegendOpts(is_show = False),
                         title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源：豆瓣\n公 众 号 ：Python与Excel之交"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15))
        
    )
pie.render_notebook()

3、评论时间

评论时间在春节到达高峰，然后一路跌：
在这里插入图片描述

df7 = df1["日期"].value_counts()
line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(df7.index.to_list())
    .add_yaxis("",df7.to_list()) 
    .set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),
                       xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       )
    .set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top'))
    )
line.render_notebook()

词云中提及最多的是歌曲“heal the world”，电影情节‘36D’；接着是“长泽雅美”这些日本演员；剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。
在这里插入图片描述

stylecloud.gen_stylecloud(text=' '.join(df1['评论']),
                          max_words=200,
                          custom_stopwords=['唐探3','唐探','唐人街探案3'],	#  停词
                          collocations=False,
                          font_path='simhei.ttf',
                          icon_name='fas fa-heart',
                          size=653,
                          output_name='./1.jpg')
Image(filename='./1.jpg')

《你好，李焕英》

1、最赞短评

点赞最多的TOP10短评：
在这里插入图片描述
十条短评中，点赞最多的是“你以为你已经很爱很爱妈妈了，但妈妈远比你想象中更爱更爱更爱你。”；除了“吐槽沈腾”这条评分只是“还行”，其它的为“力荐”和“推荐”。

2、评分占比

各个评分占比中，“力荐”和“推荐”共占比64.68%，与《唐人街探案3》的评分正好相反：
在这里插入图片描述
3、评论时间

评论时间相比《唐人街探案3》，下降的比较平和：
在这里插入图片描述
从词云中可以看出，泪点很多，其中“我宝”出现的最多，沈腾主演的“夏洛特烦恼”也被提及很多，接着是对情节的评论：”有笑有泪“、”喜剧“和”子欲养而亲不待“，“我的女儿”。

从两部电影的对比可以看出，哪部电影更好，观众更喜欢那部电影，已经很明显了！

本文图片以及文本仅供学习、交流使用,不做商业用途,如有问题请及时联系我们以作处理。提供的结论仅供参考，还请独立思考。

Python与Excel之交

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
对不起！《唐人街探案3》和《你好，李焕英》相比，我更推荐《你好，李焕英》！

作者: 锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容hi~大家好！自春节以来，《唐人街探案3》和《你好，李焕英》两部电影的热搜就没有停过，“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录！两部电影上映七天，票房也双双进入30亿，其它电影成为陪衬！两部电影虽然热评不断，但对《唐人街探案3》的评价却是极底，而《你好，李焕英》却好评不断！《唐人街探案3》在豆瓣的评分为5.7，超底的评分却有超高.
复制链接

扫一扫

专栏目录