Python对追龙电影进行分析

最新推荐文章于 2023-07-16 22:32:40 发布

yang_jian1314

最新推荐文章于 2023-07-16 22:32:40 发布

阅读量1.2k

点赞数 1

分类专栏： Python学习文章标签： python 豆瓣数据分析王晶追龙

本文链接：https://blog.csdn.net/yang_jian1314/article/details/78899580

版权

Python学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文通过Python抓取并分析了电影《追龙》的豆瓣影评，详细介绍了数据清洗和分析的过程，旨在揭示观众对该电影的评价和看法。

摘要由CSDN通过智能技术生成

1. 写在前面的话

国庆期间，基友来我这边玩，顺便带他去看了电影《追龙》，说实话当时觉得还挺带感的。基友说：王晶这部片子真的要比以前拍的烂片好N倍，当时我还真没这么大感触。后来去了南京玩的时候，这货还想去再看一遍，卧槽，真的有这么好看吗？那就让我们来看看豆瓣的网友是怎么看的吧。放上电影图片：

2. 抓取《追龙》的豆瓣影评

由于豆瓣对一些与影片无关的或包含人身攻击等内容的短评进行了限制，所以抓取到的只有部分影评。

import pandas as pd
import re
import requests
import time

url_first = 'https://movie.douban.com/subject/26425068/comments?start=0'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'}
cookies = {'cookie': 'your cookies'}
html = requests.get(url_first, headers=headers, cookies=cookies)

#下一页
reg = re.compile(r'<a href="(.*?)&.*?class="next">')

#评论内容
result = re.compile(r'<span class="votes">(.*?)</span>.*?</span>.*?<span.*?class="">(.*?)</a>.*?<span>(.*?)</span>.*?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)\n', re.S)


while html.status_code == 200:
    url_next = 'https://movie.douban.com/subject/26425068/comments' + re.findall(reg, html.text)[0] 
    print(url_next)
    zl = re.findall(result, html.text)
    data = pd.DataFrame(zl)
    data.to_csv(r'/Users/wsn331/Desktop/zl.csv', header=False, index=False, mode='a+')
    data = []
    zl= []
    time.sleep(1)
    html = requests.get(url_next, headers=headers, cookies=cookies)

抓取结果如下，部分截图：