- 博客(3)
- 收藏
- 关注
原创 爬虫实战记录——重写Scrapy重试中间件解决重定向(正常状态码)的异常重试
有些网站在检测到爬虫时不会直接返回401之类的异常状态码,而是重新重定向到另一个页面,但我们并不能从重定向的页面中获取到数据,因此我们重写RetryMiddleware来解决这一问题,在被重定向时进行重试,以期在下次更换IP或header后可以正常访问。首先我们需要大致了解一下scrapy.downloadermiddlewares.retry.RetryMiddleware的源代码,可以看一下...
2020-03-02 15:52:45 2371
原创 爬虫实战记录——requests与scrapy中UA池的建立与使用(及重写ScrapyUA中间件)
相比IP池的编写,UA池简单太多,所以前面部分可以直接上代码。因为比较好写所以网上的教程实在太多了都差不多,我这里贴一下我的。编写HeaderGenerator类USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR ...
2020-03-02 15:23:43 568
原创 爬虫实战记录——requests与scrapy中IP池的建立与使用(及scrapy代理中间件详解、重写代理中间件等)
获取免费代理IP这一部分中,我希望获取一些主流代理网站的免费IP供我个人使用。由于免费IP可用性相对私密代理较差,因此我希望在获取到代理后进行进行可用性的校验,并将可用IP保存至本地。同时,我希望可以对IP列表进行更新。所需模块import requestsfrom lxml import etreeimport timeimport datetimeimport random...
2020-03-02 14:31:45 888 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人