3.4.2 爬取豆瓣影评实战

最新推荐文章于 2024-09-03 17:37:40 发布

欧阳枫落

最新推荐文章于 2024-09-03 17:37:40 发布

阅读量237

点赞数 1

分类专栏： Python 教学文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44815507/article/details/141689883

版权

Python 教学专栏收录该内容

14 篇文章 2 订阅

订阅专栏

课程目标

爬取豆瓣影评实战

课程内容

编码实现

爬虫部分

import requests  # 导入requests库，用于发送HTTP请求
from fake_useragent import UserAgent  # 导入UserAgent库，用于生成随机的User-Agent
import bs4  # 导入BeautifulSoup库，用于解析HTML内容
from tqdm import tqdm  # 导入tqdm库，用于显示进度条
import time  # 导入time库，用于暂停执行
import pandas as pd  # 导入pandas库，用于数据处理和生成Excel文件

# 定义一个函数，用于获取评论的详细信息
def get_detail(data_rid):
    headers = {
        # 设置请求头，模拟浏览器行为
    }
    url = f"https://movie.douban.com/j/review/{data_rid}/full"  # 构造请求URL
    response = requests.get(url, headers=headers)  # 发送GET请求
    rj = response.json()  # 解析返回的JSON数据

    soup_ht = bs4.BeautifulSoup(rj['html'], 'html.parser')  # 解析HTML
    return soup_ht.text  # 返回评论文本内容

# 初始化一个空列表，用于存储爬取的数据
infos = []

# 循环爬取10页数据
for page in range(10):
    print("正在爬取第{}页".format(page+1))  # 打印当前爬取的页码
    # 设置请求头
    headers = {
        # ...
    }

    # 构造请求URL
    url = "https://movie.douban.com/review/best"
    start = page * 20  # 计算每页的起始索引
    params = {
        "start": str(start),  # 将起始索引转换为字符串并设置为请求参数
    }
    response = requests.get(url, headers=headers, params=params)  # 发送GET请求
    soup = bs4.BeautifulSoup(response.text, 'html.parser')  # 解析HTML

    # 找到所有评论项
    son_divs = soup.find_all('div', class_='main review-item')
    for son_div in tqdm(son_divs):  # 使用tqdm显示进度条
        # 提取电影名称、图片URL、影评人名称、评论ID、评论内容、发布时间、赞数和踩数
        movie_name = son_div.a.img['alt']
        movie_name_img_url = son_div.a.img['src']
        writer_name = son_div.find("a", class_="name").text
        data_rid = son_div.find("div", class_="review-short")["data-rid"]
        comment_text = get_detail(data_rid)  # 调用函数获取评论内容
        create_time = son_div.find('span', class_='main-meta').text
        favour = int(son_div.find('a', {'title': '有用'}).span.text.strip()) if son_div.find('a', {'title': '有用'}) else 0
        tread = int(son_div.find('a', {'title': '没用'}).span.text.strip()) if son_div.find('a', {'title': '没用'}) else 0

        # 将提取的数据存储为字典，并添加到infos列表中
        info = {
            "电影名称": movie_name,
            "电影图片": movie_name_img_url,
            "影评人": writer_name,
            "评论内容": comment_text,
            "发布时间": create_time,
            "赞": favour,
            "踩": tread
        }
        infos.append(info)
    
    time.sleep(0.3)  # 暂停0.3秒，避免请求过快被限制

# 将爬取的数据转换为pandas的DataFrame对象
df = pd.DataFrame(infos)
print(df.head())  # 打印前几行数据，用于检查
df.to_excel('豆瓣影评.xlsx', index=False)  # 将数据保存到Excel文件中