一、为什么要设置代理IP
爬虫爬取网站时,如果被对方识别是爬虫,就很可能被封号(即不能访问该网站)。
二、怎么获取IP
1.通过网站:https://www.ipip.net/(获取外网IP)
2.通过网站:http://httpbin.org/ip
3.在cmd里输入:ipconfig(获取内网IP,局域网)
我们要隐藏的是外网ip
三、方法
1、怎么爬取ip(就是模拟上述获取ip的方法)
2、怎么设置代理ip
import requests
url = 'http://httpbin.org/ip'
# 设置代理ip
proxy = {
'http':'113.121.79.133:9999'
}
res = requests.get(url,proxies=proxy)
print(res.text)
结果:
如果没有报错(见下面的第4点怎么验证1个ip),那我们真实的IP(见上面的第1点怎么爬取ip)就被我们设置的代理ip给成功隐藏了。
3、怎么找到一些免费的代理IP
(1)通过网站:快代理(https://www.kuaidaili.com/free/)
(2)通过网站:豌豆HTTP(https://h.wandouip.com/)
第1步:注册
第2步:在‘我的豌豆’里点击‘IP白名单’
第3步:输入自己的IP
第4步:点击‘工具’–‘提取API’
第5步:
第6步:将复制的链接在新页面粘贴打开
4、怎么验证代理IP的有效性
(1)验证1个IP:
(2)验证多个IP:
import requests
ips = [('113.117.117.121:766'),('182.87.240.142:36410'),('113.117.25.54:894'),('125.123.121.223:766'),('114.100.3.14:3617')]
url = 'http://httpbin.org/ip'
for i in ips:
try:
res = requests.get(url,proxies={'http':i},timeout=0.5)
print(res.text)
except Exception as e:
print('出现异常',e)
结果: