爬虫 裁判文书网完整流程爬取 part1

本文档分享了作者在研究裁判文书网过程中积累的经验,详细阐述了爬取过程,包括首页、列表页和详情页的请求逻辑。由于每次请求需携带上一次的cookie,因此整个爬虫分为两部分,便于多任务处理和后续数据请求。此外,为应对文书网的IP封锁,采用了代理策略,每请求完列表页10条数据即切换IP。文中给出了请求模块的部分代码。
摘要由CSDN通过智能技术生成

研究文书网一个星期,现在换项目了,打算把之前的研究成果分享出来,记录在这里,给大家作交流学习之用。

文书网主要分三个部分,首页,列表页和详情页。

想要获得详情页,至少要发起7次请求
首页和列表页各两次,详情页发起三次请求
因为每次请求都需要拿上一次请求的cookie去获取下一个cookie,所以之前的这些请求都不能少

前面请求首页主要是为了获得cookie,后面请求列表页和详情页是为了获取数据。因此我把爬虫分成了两部分,一方面为了方便做多任务,另一方面也为了方便后续请求不同的数据,可以继续使用前面获取cookie的代码。

=============================================================
首先先从代理模块开始,文书网封ip封的厉害,应对的策略是使用一个ip请求完列表页一页10条数据之后换一个ip。这样就需要用到代理。

在这里插入图片描述

===============================================================
然后是请求的第一部分
在这里插入图片描述
结果:
{‘ua’: ‘Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6’, ‘pr’: ‘114.107.227.114:4221’, ‘vjkl5’: ‘99bc08196ff46e9f201ee1879ba5aa763167ac7f’, ‘wzws_cid’: ‘fc34

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值