Python之爬虫--ProxyHandler（代理服务器）

最新推荐文章于 2023-03-12 16:17:59 发布

ydw_ydw

最新推荐文章于 2023-03-12 16:17:59 发布

阅读量1.6k

点赞数 1

分类专栏： Python 爬虫文章标签： Python 爬虫

本文链接：https://blog.csdn.net/ydw_ydw/article/details/81986184

版权

Python 同时被 2 个专栏收录

36 篇文章 2 订阅

订阅专栏

爬虫

15 篇文章 1 订阅

订阅专栏

根据上一篇博文User Agent已经设置好了，但是还应该考虑一个问题，程序的运行速度是很快的，如果我们利用一个爬虫程序在网站爬取东西，一个固定IP的访问频率就会很高，这不符合人为操作的标准，因为人操作不可能在几ms内，进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值，如果一个IP访问频率超过这个阈值，说明这个不是人在访问，而是一个爬虫程序。

一个很简单的解决办法就是设置延时，但是这显然不符合爬虫快速爬取信息的目的，所以另一种更好的方法就是使用IP代理。

ProxyHandler处理（代理服务器）

使用代理IP，是爬虫的常用手段
获取代理服务器的地址：（注意：当然也可以写个正则表达式从网站直接爬取IP，但是要记住不要太频繁爬取，加个延时什么的，太频繁给服务器带来压力了，服务器会直接把你block，不让你访问的。编写代码访http://www.whatismyip.com.tw/，该网站是测试自己IP为多少的网址，服务器会返回访问者的IP）
- www.xicidaili.com
- www.goubanjia.com
代理用来隐藏真实访问中，代理也不允许频繁访问某一个固定网站，所以，代理一定要很多很多
基本使用步骤：
1. 设置代理地址
2. 创建ProxyHandler：调用urlib.request.ProxyHandler()，proxies参数为一个字典
3. 创建Opener：opener = request.build_opener(proxy_handler)
4. 安装Opener：request.install_opener(opener)

使用install_opener方法之后，会将程序默认的urlopen方法替换掉。也就是说，如果使用install_opener之后，在该文件中，再次调用urlopen会使用自己创建好的opener。如果不想替换掉，只是想临时使用一下，可以使用opener.open(url)，这样就不会对程序默认的urlopen有影响。

案例1

案例1：

'''
使用代理访问百度网站
'''

from urllib import  request, error

if __name__ == '__main__':

    url = "http://www.baidu.com"

    # 使用代理步骤
    # 1. 设置代理地址
    proxy = {'http': '120.194.18.90:81' }
    # 2. 创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3. 创建Opener
    opener = request.build_opener(proxy_handler)
    # 4. 安装Opener
    request.install_opener(opener)

    # 现在如果访问url，则使用代理服务器
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)