Python爬虫Scrapy框架IP代理的配置与调试

最新推荐文章于 2024-07-21 10:33:06 发布

Python新世界

最新推荐文章于 2024-07-21 10:33:06 发布

阅读量1.8w

点赞数

文章标签： python 编程语言 Python爬虫 scrapy

本文链接：https://blog.csdn.net/weixin_46089319/article/details/106191053

版权

本文介绍了在Python Scrapy爬虫中如何配置和调试代理IP，包括静态和动态代理的设置方法，以及如何验证代理IP是否生效。通过在Downloader Middleware中设置代理逻辑，并在settings.py中启用Middleware，配合验证网站检查代理IP是否正常工作。

摘要由CSDN通过智能技术生成

在调试爬虫的时候，新手都会遇到关于ip的错误，好好的程序突然报错了，怎么解决，关于ip访问的错误其实很好解决，但是怎么知道解决好了呢？怎么确定是代理ip的问题呢？由于笔者主修语言是Java，所以有些解释可能和Python大佬们的解释不一样，因为我是从Java 的角度看Python。这样也便于Java开发人员阅读理解。

代理ip的逻辑在哪里

一个scrapy 的项目结构是这样的

scrapydownloadertest  # 项目文件夹
    │  items.py       # 定义爬取结果存储的数据结构
    │  middlewares.py  # 中间件（可以理解java的过滤器拦截器）
    │  pipelines.py   # 数据管道，对获取到的数据做操作
    │  settings.py   # 项目的配置文件
    │  __init__.py   # 初始化逻辑
    │
    ├─spiders  # 放置 Spiders 的文件夹
    │  │  httpProxyIp.py   # 爬取到结果后的处理类
    │  │  __init__.py    # spider初始化逻辑
scrapy.py  
复制代码

从上图可以发现，代理ip的设置肯定是在发送请求之前就要设置好，那么唯一符合条件的地方就是 middlewares.py ，所以关于代理的相关逻辑都写在这个里面。直接在其中添加如下代码：

# Scrapy 内置的 Downloader Middleware 为 Scrapy 供了基础的功能，
#

最低0.47元/天解锁文章

Python新世界

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫