研究文书网一个星期,现在换项目了,打算把之前的研究成果分享出来,记录在这里,给大家作交流学习之用。
文书网主要分三个部分,首页,列表页和详情页。
想要获得详情页,至少要发起7次请求
首页和列表页各两次,详情页发起三次请求
因为每次请求都需要拿上一次请求的cookie去获取下一个cookie,所以之前的这些请求都不能少
前面请求首页主要是为了获得cookie,后面请求列表页和详情页是为了获取数据。因此我把爬虫分成了两部分,一方面为了方便做多任务,另一方面也为了方便后续请求不同的数据,可以继续使用前面获取cookie的代码。
=============================================================
首先先从代理模块开始,文书网封ip封的厉害,应对的策略是使用一个ip请求完列表页一页10条数据之后换一个ip。这样就需要用到代理。
===============================================================
然后是请求的第一部分
结果:
{‘ua’: ‘Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6’, ‘pr’: ‘114.107.227.114:4221’, ‘vjkl5’: ‘99bc08196ff46e9f201ee1879ba5aa763167ac7f’, ‘wzws_cid’: ‘fc34