爬虫裁判文书网完整流程爬取 part1

最新推荐文章于 2024-06-10 11:21:35 发布

Mandy。

最新推荐文章于 2024-06-10 11:21:35 发布

阅读量4.9k

点赞数 3

本文链接：https://blog.csdn.net/weixin_43751840/article/details/89036354

版权

本文档分享了作者在研究裁判文书网过程中积累的经验，详细阐述了爬取过程，包括首页、列表页和详情页的请求逻辑。由于每次请求需携带上一次的cookie，因此整个爬虫分为两部分，便于多任务处理和后续数据请求。此外，为应对文书网的IP封锁，采用了代理策略，每请求完列表页10条数据即切换IP。文中给出了请求模块的部分代码。

摘要由CSDN通过智能技术生成

研究文书网一个星期，现在换项目了，打算把之前的研究成果分享出来，记录在这里，给大家作交流学习之用。

文书网主要分三个部分，首页，列表页和详情页。

想要获得详情页，至少要发起7次请求
首页和列表页各两次，详情页发起三次请求
因为每次请求都需要拿上一次请求的cookie去获取下一个cookie，所以之前的这些请求都不能少

前面请求首页主要是为了获得cookie，后面请求列表页和详情页是为了获取数据。因此我把爬虫分成了两部分，一方面为了方便做多任务，另一方面也为了方便后续请求不同的数据，可以继续使用前面获取cookie的代码。

=============================================================
首先先从代理模块开始，文书网封ip封的厉害，应对的策略是使用一个ip请求完列表页一页10条数据之后换一个ip。这样就需要用到代理。

在这里插入图片描述

===============================================================
然后是请求的第一部分
在这里插入图片描述
结果：
{‘ua’: ‘Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6’, ‘pr’: ‘114.107.227.114:4221’, ‘vjkl5’: ‘99bc08196ff46e9f201ee1879ba5aa763167ac7f’, ‘wzws_cid’: ‘fc34

最低0.47元/天解锁文章

Mandy。

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
10
评论
爬虫裁判文书网完整流程爬取 part1

研究文书网一个星期，现在换项目了，打算把之前的研究成果分享出来，记录在这里，给大家作交流学习之用。文书网主要分三个部分，首页，列表页和详情页。想要获得详情页，至少要发起7次请求首页和列表页各两次，详情页发起三次请求因为每次请求都需要拿上一次请求的cookie去获取下一个cookie，所以之前的这些请求都不能少前面请求首页主要是为了获得cookie，后面请求列表页和详情页是为了获取数据，所...
复制链接

扫一扫