Python分析《我们与恶的距离》豆瓣剧评

​Python分析《我们与恶的距离》豆瓣剧评

《我们与恶的距离》是一部非常有深度的台剧。演员的演技无可挑剔,剧情编排也很新颖,而且逻辑严谨,剧情环环相扣,不拖泥带水。剧中出了很多火遍全网的台词,如“所以爱会消失,对不对?”,“我们都是好人。不知道为什么事情会变成这样子,老天爷到底要我们学什么。”

该剧上映于2019年春,已经两年了,多次在朋友圈看到该剧的好评。记得我看了一小段,但因为那段时间工作非常忙就被中断了(另一个原因是我基本不看电视剧,我看的上一部电视是《琅琊榜》,中间几年一部没看过)。 最近刷到B站知名up主在推荐这部剧,所以我在周末一口气看完了(全剧共10集)。

对于剧中要探讨的诸多问题,也许我们正在经历,也许我们未来会经历。但无论何时,假设身临其境地面对,都需要足够的勇气。顺着该剧每集开始的提醒,我建议对这部剧感兴趣的人,一定要酌情观看,尤其是年龄较低的朋友最好别看。

本文不会对剧中的内容和观点做深入的讨论和评价,只分析豆瓣网友对这部剧的评论和感受。

一、爬取豆瓣剧评

打开豆瓣首页,搜索剧名,进入《我们与恶的距离》的详情页。

然后向下滚动页面,找到豆瓣短评。

点击全部短评进入评论详情页面,每一页有20条评论。按F12,鼠标前后翻页抓取网页请求信息。

根据网页信息可以得到请求方式为GET,同时获取到Request URL,Request Headers,Cookies。有了这些信息,就可以写代码爬取短评内容了。

爬虫的核心代码如下:

drama_code = 30181230
base_url = "https://movie.douban.com/subject/{}/comments".format(drama_code)
for i in range(25):
    params = {'percent_type': '', 'start': str(20*i), 'limit': '20', 'status': 'P', 'sort': 'new_score',
              'comments_only': '1', 'ck': 'qN8_'}
    try:
        # 发送GET请求获取数据,headers和cookies从浏览器中获取
        response = requests.get(base_url, headers=headers, cookies=cookies, params=params)
        if response.status_code != 200:
            break
        result = response.json()
        print('[INFO]第{}页数据获取成功。'.format(i + 1, ))
    except Exception as e:
        print('[ERROR]第{}页数据获取失败:{}'.format(i + 1, e))

代码中使用requests库向豆瓣发送GET请求,一次请求可以获取一页评论数据,改变URL中的start,循环多次发送请求,即可获取所有的评论数据。

网页爬取成功后,用正则表达式匹配需要用到的数据,依次写到excel中(文末提供完整代码的获取方式)。

出于豆瓣的限制,非登录状态下只能获取到11页数据(220条),登录状态下只能获取到25页数据(500条),不用爬虫,人工在网页上浏览也是如此。不过,豆瓣会优先把点赞(有用)数高的评论排在前面(但不是完全降序),所以获取到的500条评论是相对点赞更多的,已经可以满足我们的要求了。

二、数据有效性验证

拿到了数据,先验证一下数据是否可用,主要判断评论中是否有重复的用户名,以及是否每个用户都看过这部剧。

对用户名进行验证,重名用户数为0,获取到的500条评论来自不同用户,没有重复用户的情况下评论更客观。

对用户是否都看过此剧进行验证,所有评论用户都“看过”。

根据验证结果,可以确认所有评论都是有效评论。

三、评论分析和数据可视化

1. 500位用户分别打了多少星?

豆瓣的1星到5星对应“很差”,“较差”,“还行”,“推荐”和“力荐”,在获取的数据中有11个用户没有打星,可以设置为0星。从用户打星的分布来看,5星超过了60%,4星和5星超过了80%,与文章开头的截图基本吻合。

2. 评论中主要在讨论些什么?

从评论词云来看,网友的评论主要围绕以下三个方面:

  • 讨论剧中的受害者和家属等人物之间的关系

  • 讨论民主、法治等社会问题,也有不少人讨论剧中具体的问题,如精神病患,新闻,编辑室,律师等

  • 认为该剧是年度最佳华语剧集

3. 评论热词被提到了多少次?

根据热词提取结果,评论中被提到最多的词是“社会”,大部分网友在讨论剧中暴露出来的社会问题。而其他的热词如“受害者”、“精神”、“新闻”等都可以理解成社会问题中的一部分。

4. 评论获得了多少网友的赞同?

从评论的赞同数分布来看,大部分评论的赞同数都小于100。不过有4%的评论获得了超过500次赞,说明网友对评论点赞有很强的“马太效应”,点赞高的评论更可能排在前面,被更多人看到,然后获得更多的赞。

5. 热评都获得了多少点赞?

点赞数前三的评论都获得了超过了1W次点赞,超过了点赞数小于100的90%评论的总点赞数,再次说明“马太效应”的存在。

6. 点赞前三的评论内容是什么?

  1. 台剧质量都已经拍到这个深度了,国产剧还在拍什么家长里短,情情爱爱。。。。
  2. 韩剧在稳中求变,台湾剧在爆发式突变。我们的剧以不变应万变(反正没人看)
  3. 民众在斩草,政府在除根,媒体在浇水,只有王赦在研究土壤。

大家对剧的质量都是有要求的,在大部分电视剧毫无突破时,出现一部有深度的好剧,确实会引导观众去思考。

看到剧名《我们与恶的距离》时,我的第一感受是对英文剧名《The world between Us》的音译。看完整部剧,我也没有感受到“恶”的阴暗感,至于这部剧是在探讨我们与恶的距离,还是我们与爱的距离,亦或是其他的东西,都没有观众看完后去认真思考重要。

这也是我对网友评论感兴趣的原因。

四、代码获取

扫码关注公众号“Python碎片”,然后在后台回复“theworld”关键字,可以获取本文代码和数据。

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小斌哥ge

非常感谢,祝你一切顺利。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值