爬取豆瓣电视剧数据

最新推荐文章于 2024-04-24 14:15:03 发布

V-Sugar

最新推荐文章于 2024-04-24 14:15:03 发布

阅读量2.8k

点赞数 13

分类专栏： python # 爬虫文章标签： python url 爬虫

本文链接：https://blog.csdn.net/weixin_43844838/article/details/107812440

版权

本文介绍了如何爬取豆瓣电视剧数据。首先从豆瓣手机版电视网址出发，解析返回数据的文件和网址，找到每页数据的规律。接着编写Python爬虫代码，并在过程中遇到豆瓣的反爬策略。为了解决这个问题，需要在请求头中添加Referer字段，最终成功获取到数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

在这里找出规律，起始的start为0然后每页和每页间隔18，在下面的中发现数据total应该代表的数据的条数

在编写前查看url得知是否可以优化

https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=ios&for_mobile=1&callback=jsonp1&start=0&count=18&loc_id=108288&_=0

最后优化成：start位置的值预留出来可以使用.format来进行匹配

https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?start={}&count=18

在直接用浏览器打开的网址的时候出现只有这写数据：
```
{"msg": "invalid_request_1284", "code": 1287, "request": "GET \/rexxar\/v2\/subject_collection\/tv_american\/items", "localized_message": ""}
```
原因是：因为豆瓣使用的反爬虫的原因，防止别人抓取数据，解决方法是：
- 要在headers中加上Referer: https://m.douban.com/tv/american这个内容，只有user-agent是不行的，就会爬取不到数据

代码如下：

# coding=utf-8
import requests
import json


class DoubanSpider