Python网络爬虫学习笔记 - 第二章 - ProxyHandler代理设置

最新推荐文章于 2023-07-08 09:30:00 发布

zh_victory

最新推荐文章于 2023-07-08 09:30:00 发布

阅读量310

点赞数

分类专栏： Python网络爬虫学习笔记文章标签： python 爬虫 proxy

本文链接：https://blog.csdn.net/zh_victory/article/details/114379860

版权

Python网络爬虫学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

我们在使用爬虫的过程中，经常会碰到这样的问题：刚开始启动爬虫，爬虫可正常运行，且可以正常的爬取网页数据。但是过一会后，爬虫无法正常获取网页数据。

那么这是什么原因呢？进一步debugger代码，发现爬虫在请求网址的时候报错，分析后发现是网页服务器禁止了爬虫的请求（可能会返回，403：Forbidden）。

出现这样的情况，就说明了承载爬虫的IP，访问网页服务器在单位时间内访问的请求次数超出了一定的阈值，服务器根据此信息，将次访问识别为爬虫，进而禁止该IP

的再次访问。那么如何解决此问题呢，Proxy（代理）就是今天的主角。代理怎么理解呢，见下图：

简言之，代理就是替爬虫服务去请求网页服务器，拿到网页信息后，由代理服务器将网页信息返回给爬虫。

如果我们多备几台代理服务器，然后使用一定的规则合理的使用代理服务器访问网页服务器，那么网页服务器就很难识别出爬虫了，这样就不影响我们爬取网页信息了。

【代理服务器分两种：免费代理和有偿代理，不用说了免费代理肯定是不稳定，如果是生产环境就需要购买代理服务器，如何购买自行百度】

Python中的代理如何实现，这里使用urllib库来实现，很简单，代码如下：

# --coding:utf-8--
from urllib import request
from urllib import parse

url = 'http://httpbin.org/ip'
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.51'
}

rq = request.Request(url, headers=header)
handler = request.ProxyHandler({'http': '139.155.80.151:8000'})  # https://seofangfa.com/proxy/  （代理IP获取网址）
opener = request.build_opener(handler)
resp = opener.open(rq)
print(resp.read())

zh_victory

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python网络爬虫学习笔记 - 第二章 - ProxyHandler代理设置

我们在使用爬虫的过程中，经常会碰到这样的问题：刚开始启动爬虫，爬虫可正常运行，且可以正常的爬取网页数据。但是过一会后，爬虫无法正常获取网页数据。那么这是什么原因呢？进一步debugger代码，发现爬虫在请求网址的时候报错，分析后发现是网页服务器禁止了爬虫的请求（可能会返回，403：Forbidden）。出现这样的情况，就说明了承载爬虫的IP，访问网页服务器在单位时间内访问的请求次数超出了一定的阈值，服务器根据此信息，将次访问识别为爬虫，进而禁止该IP的再次访问。那么如何解决此问题呢，Proxy（
复制链接

扫一扫