python爬虫scrapy之downloader_middleware设置proxy代理

最新推荐文章于 2023-02-02 07:57:02 发布

miaobinfei

最新推荐文章于 2023-02-02 07:57:02 发布

阅读量1.9k

点赞数

分类专栏： python常用知识文章标签： proxy scrapy

原文链接：https://www.cnblogs.com/lei0213/p/7904994.html

版权

python常用知识专栏收录该内容

26 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在Python Scrapy爬虫过程中，为了避免被目标网站封禁，通常会使用代理。本文介绍了如何在downloader_middleware中设置proxy代理，通过request.meta['proxy']配置代理IP，并讨论了使用代理后请求源IP的变化。

摘要由CSDN通过智能技术生成

python爬虫scrapy之downloader_middleware设置proxy代理

一、背景：

　　小编在爬虫的时候肯定会遇到被封杀的情况，昨天爬了一个网站，刚开始是可以了，在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器，刚开始是可以的，紧接着就被对方服务器封杀了。

代理：

　　代理，代理，一直觉得爬去网页把爬去速度放慢一点就能基本避免被封杀，虽然可以使用selenium，但是这个坎必须要过，scrapy的代理其实设置起来很简单。

　　注意，request.meta['proxy']=代理ip的API

1

2

3

4

5

6

7

8

middlewares.py

class HttpbinProxyMiddleware(object):

def process_request(self, request, spider):

pro_addr = requests.get('http://127.0.0.1:5000/get').text

request.meta['proxy'] = 'http://' + pro_addr

#request.meta['proxy'] = 'http://' + proxy_ip

　　设置启动上面我们写的这个代理

1

2

3

4

settings.py

DOWNLOADER_MIDDLEWARES = {

'httpbin.middlewares.HttpbinProxyMiddleware': 543,

}

　　spiders

1

2

3

4

5

6

7

8

9

10

11

httpbin_test.py

import scrapy

class HttpbinTestSpider(scrapy.Spider):

name = "httpbin_test"

allowed_domains = ["httpbin.ort/get"]

start_urls = ['http://httpbin.org/get']

def parse(self, response):

print(response.text)

　　origin的值其实就是本地的公网地址，但是因为我们用了代理，这里的ip是美国的一个ip

参考l

参考链接：https://www.cnblogs.com/lei0213/p/7904994.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。