自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 爬虫实战记录——重写Scrapy重试中间件解决重定向(正常状态码)的异常重试

有些网站在检测到爬虫时不会直接返回401之类的异常状态码,而是重新重定向到另一个页面,但我们并不能从重定向的页面中获取到数据,因此我们重写RetryMiddleware来解决这一问题,在被重定向时进行重试,以期在下次更换IP或header后可以正常访问。首先我们需要大致了解一下scrapy.downloadermiddlewares.retry.RetryMiddleware的源代码,可以看一下...

2020-03-02 15:52:45 2329

原创 爬虫实战记录——requests与scrapy中UA池的建立与使用(及重写ScrapyUA中间件)

相比IP池的编写,UA池简单太多,所以前面部分可以直接上代码。因为比较好写所以网上的教程实在太多了都差不多,我这里贴一下我的。编写HeaderGenerator类USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR ...

2020-03-02 15:23:43 539

原创 爬虫实战记录——requests与scrapy中IP池的建立与使用(及scrapy代理中间件详解、重写代理中间件等)

获取免费代理IP这一部分中,我希望获取一些主流代理网站的免费IP供我个人使用。由于免费IP可用性相对私密代理较差,因此我希望在获取到代理后进行进行可用性的校验,并将可用IP保存至本地。同时,我希望可以对IP列表进行更新。所需模块import requestsfrom lxml import etreeimport timeimport datetimeimport random...

2020-03-02 14:31:45 835 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除