python爬虫-----DAY5——代理IP
什么是代理
代理是指代理服务器,它的作用是突破自身IP访问限制,举个例子,如果服务器检测到在一个时间段内,同一个IP的访问次数过多,服务器就会将它认为是一种爬虫,从而禁掉该IP,是一种反爬措施。
代理的作用就是
1.可以突破自身IP访问的限制。
2. 隐藏自身真实的IP。
代理相关的网站:快代理
代理ip的类型:
-http:只能应用到http协议对应的url中
-https:应用到https协议对应的url中
代理IP的匿名度:
-透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip
-匿名:知道使用了代理,但是不知道真实的IP
-高匿名:服务器不知道使用了IP,更不知道真实IP
代理操作
import requests
url='https://www.baidu.com/s?i&wd=ip%E5%9C%B0%E5%9D%80'
headers={
"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67',
}
# 通过requests中的参数proxies添加代理
# 代理IP以字典形式输入。
page_text=requests.get(url=url,headers=headers,proxies={'http':'123.171.42.75:3256'}).text
with open('./daili.html','w',encoding='utf-8') as fp:
fp.write(page_text)