对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!

作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容

hi~大家好!

自春节以来,《唐人街探案3》和《你好,李焕英》两部电影的热搜就没有停过,“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录!
在这里插入图片描述
两部电影上映七天,票房也双双进入30亿,其它电影成为陪衬!
在这里插入图片描述
两部电影虽然热评不断,但对《唐人街探案3》的评价却是极底,而《你好,李焕英》却好评不断!《唐人街探案3》在豆瓣的评分为5.7,超底的评分却有超高的票房,这不得不说让观众很失望!反之《你好,李焕英》以极底的成本却获取了超高的评分和票房!
在这里插入图片描述

数据可视化

接下来让我们看下观众眼里的两部电影!

本次爬虫较为简单,就不再讲解。本文爬取了豆瓣电影中的短评,因为豆瓣有限制,爬取的是较为火热的短评,数据量较少,所以本文的意见仅供参考,纯属娱乐,切勿上纲上线!

导入需要用到的模块:

import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType 
import stylecloud
from IPython.display import Image

导入数据,两个文件的格式一致,一共500条数据:

df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好,李焕英.csv')

在这里插入图片描述
删除重复项:

df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()

查看数据信息:

df1.info()
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     498 non-null    object
 1   有用      498 non-null    int64 
 2   评分      498 non-null    object
 3   日期      498 non-null    object
 4   评论      498 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     494 non-null    object
 1   有用      494 non-null    int64 
 2   评分      493 non-null    object
 3   日期      488 non-null    object
 4   评论      494 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB

发现df2有缺失值,这里为了方便,直接删除掉:

df2.dropna(axis=0, how='any', inplace=True)
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     487 non-null    object
 1   有用      487 non-null    int64 
 2   评分      487 non-null    object
 3   日期      487 non-null    object
 4   评论      487 non-null    object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB

《唐人街探案3》

1、最赞短评

点赞最多的TOP10短评:
在这里插入图片描述

df1["有用"] = df1["有用"].astype('float')	# 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]

从这十条短评中可以看到:点赞最高的是“电影里插入广告”,评论最多的“剧情拼凑、分裂”,接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’(四星)的只有一个。

2、评分占比

各个评分占比中,过一半占比为很差和较差,共占比69.88%:
在这里插入图片描述

df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (
        Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add("", list(zip(data_region,data_value)))
        .set_global_opts(legend_opts = opts.LegendOpts(is_show = False),
                         title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源:豆瓣\n公 众 号 :Python与Excel之交"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15))
        
    )
pie.render_notebook()

3、评论时间

评论时间在春节到达高峰,然后一路跌:
在这里插入图片描述

df7 = df1["日期"].value_counts()
line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(df7.index.to_list())
    .add_yaxis("",df7.to_list()) 
    .set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),
                       xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       )
    .set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top'))
    )
line.render_notebook()

词云中提及最多的是歌曲“heal the world”,电影情节‘36D’;接着是“长泽雅美”这些日本演员;剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。
在这里插入图片描述

stylecloud.gen_stylecloud(text=' '.join(df1['评论']),
                          max_words=200,
                          custom_stopwords=['唐探3','唐探','唐人街探案3'],	#  停词
                          collocations=False,
                          font_path='simhei.ttf',
                          icon_name='fas fa-heart',
                          size=653,
                          output_name='./1.jpg')
Image(filename='./1.jpg') 

《你好,李焕英》

1、最赞短评

点赞最多的TOP10短评:
在这里插入图片描述
十条短评中,点赞最多的是“你以为你已经很爱很爱妈妈了,但妈妈远比你想象中更爱更爱更爱你。”;除了“吐槽沈腾”这条评分只是“还行”,其它的为“力荐”和“推荐”。

2、评分占比

各个评分占比中,“力荐”和“推荐”共占比64.68%,与《唐人街探案3》的评分正好相反:
在这里插入图片描述
3、评论时间

评论时间相比《唐人街探案3》,下降的比较平和:
在这里插入图片描述
从词云中可以看出,泪点很多,其中“我宝”出现的最多,沈腾主演的“夏洛特烦恼”也被提及很多,接着是对情节的评论:”有笑有泪“、”喜剧“和”子欲养而亲不待“,“我的女儿”。
在这里插入图片描述
从两部电影的对比可以看出,哪部电影更好,观众更喜欢那部电影,已经很明显了!

本文图片以及文本仅供学习、交流使用,不做商业用途,如有问题请及时联系我们以作处理。提供的结论仅供参考,还请独立思考。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值