![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
PeryeLee
这个作者很懒,什么都没留下…
展开
-
爬虫实战记录——重写Scrapy重试中间件解决重定向(正常状态码)的异常重试
有些网站在检测到爬虫时不会直接返回401之类的异常状态码,而是重新重定向到另一个页面,但我们并不能从重定向的页面中获取到数据,因此我们重写RetryMiddleware来解决这一问题,在被重定向时进行重试,以期在下次更换IP或header后可以正常访问。首先我们需要大致了解一下scrapy.downloadermiddlewares.retry.RetryMiddleware的源代码,可以看一下...原创 2020-03-02 15:52:45 · 2328 阅读 · 0 评论 -
爬虫实战记录——requests与scrapy中UA池的建立与使用(及重写ScrapyUA中间件)
相比IP池的编写,UA池简单太多,所以前面部分可以直接上代码。因为比较好写所以网上的教程实在太多了都差不多,我这里贴一下我的。编写HeaderGenerator类USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR ...原创 2020-03-02 15:23:43 · 539 阅读 · 0 评论 -
爬虫实战记录——requests与scrapy中IP池的建立与使用(及scrapy代理中间件详解、重写代理中间件等)
获取免费代理IP这一部分中,我希望获取一些主流代理网站的免费IP供我个人使用。由于免费IP可用性相对私密代理较差,因此我希望在获取到代理后进行进行可用性的校验,并将可用IP保存至本地。同时,我希望可以对IP列表进行更新。所需模块import requestsfrom lxml import etreeimport timeimport datetimeimport random...原创 2020-03-02 14:31:45 · 835 阅读 · 1 评论