爬虫伪装代理IP
爬虫程序频繁访问某网站,很容易触发网站的保护机制,造成无法访问。本文将解决这一问题。
首先要伪装请求头,request默认是python-requests,emmm,这不是找事嘛,首先可以考虑改一下,然而,固定的还是容易被发现了,所以这里我用User-Agent随机生成。
But,仅仅伪装headers,使用随机 User-Agent来请求也会被发现,同一个ip地址,访问的次数太多,ip会被屏蔽,就用其他的ip继续去访问。这里有两种方案,一种是使用IP代理池,速度慢,能用的不多,所以这里我们使用开源库的ip代理池—异步async-proxy-pool。
下面详细介绍安装及用法。
0.伪装请求头-随机User-Agent
from fake_useragent import UserAgent # 下载:pip install fake-useragent
import requests
ua = UserAgent() #