Python分析《我们与恶的距离》豆瓣剧评-CSDN博客

本文链接：https://blog.csdn.net/weixin_43790276/article/details/114770007

Python分析《我们与恶的距离》豆瓣剧评

《我们与恶的距离》是一部非常有深度的台剧。演员的演技无可挑剔，剧情编排也很新颖，而且逻辑严谨，剧情环环相扣，不拖泥带水。剧中出了很多火遍全网的台词，如“所以爱会消失，对不对？”，“我们都是好人。不知道为什么事情会变成这样子，老天爷到底要我们学什么。”

该剧上映于2019年春，已经两年了，多次在朋友圈看到该剧的好评。记得我看了一小段，但因为那段时间工作非常忙就被中断了（另一个原因是我基本不看电视剧，我看的上一部电视是《琅琊榜》，中间几年一部没看过）。最近刷到B站知名up主在推荐这部剧，所以我在周末一口气看完了（全剧共10集）。

对于剧中要探讨的诸多问题，也许我们正在经历，也许我们未来会经历。但无论何时，假设身临其境地面对，都需要足够的勇气。顺着该剧每集开始的提醒，我建议对这部剧感兴趣的人，一定要酌情观看，尤其是年龄较低的朋友最好别看。

本文不会对剧中的内容和观点做深入的讨论和评价，只分析豆瓣网友对这部剧的评论和感受。

一、爬取豆瓣剧评

打开豆瓣首页，搜索剧名，进入《我们与恶的距离》的详情页。

然后向下滚动页面，找到豆瓣短评。

点击全部短评进入评论详情页面，每一页有20条评论。按F12，鼠标前后翻页抓取网页请求信息。

根据网页信息可以得到请求方式为GET，同时获取到Request URL，Request Headers，Cookies。有了这些信息，就可以写代码爬取短评内容了。

爬虫的核心代码如下：

drama_code = 30181230
base_url = "https://movie.douban.com/subject/{}/comments".format(drama_code)
for i in range(25):
    params = {'percent_type': '', 'start': str(20*i), 'limit': '20', 'status': 'P', 'sort': 'new_score',
              'comments_only': '1', 'ck': 'qN8_'}
    try:
        # 发送GET请求获取数据,headers和cookies从浏览器中获取
        response = requests.get(base_url, headers=headers, cookies=cookies, params=params)
        if response.status_code != 200:
            break
        result = response.json()
        print('[INFO]第{}页数据获取成功。'.format(i + 1, ))
    except Exception as e:
        print('[ERROR]第{}页数据获取失败:{}'.format(i + 1, e))

代码中使用requests库向豆瓣发送GET请求，一次请求可以获取一页评论数据，改变URL中的start，循环多次发送请求，即可获取所有的评论数据。

网页爬取成功后，用正则表达式匹配需要用到的数据，依次写到excel中(文末提供完整代码的获取方式)。

出于豆瓣的限制，非登录状态下只能获取到11页数据(220条)，登录状态下只能获取到25页数据(500条)，不用爬虫，人工在网页上浏览也是如此。不过，豆瓣会优先把点赞(有用)数高的评论排在前面(但不是完全降序)，所以获取到的500条评论是相对点赞更多的，已经可以满足我们的要求了。