我们使用代理IP是为了搞爬虫的时候不会被封禁账号,比如豆瓣,如果爬多了,就很容易被检测出来是爬虫,进而封禁我们的IP,我们想要正常访问都访问不到了,一般都是封禁几天或者时间长的话就一两个月。使用代理IP,不再使用真实IP
import requests
# xxxxxxxxxx
if __name__ == '__main__':
# 1.目标的url
url_ = 'http://2021.ip138.com/'
# 手动的构造用户代理, cookie的参数
headers_ = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36',
}
# 手动构造一个字典:代理IP的数据指明
proxies_ = {
"http":"http://192.168.0.0:9999" # 乱写的,不能够使用的,请求不会成功的
}
# 2.发送请求,获取响应对象, 发送请求的时候,使用代理IP......
response_ = requests.get(url_, headers=headers_, proxies=proxies_)
print(response_)
代理IP一般是要购买的,上网搜索代理IP就可以查找的到。
本文探讨了使用代理IP在爬虫项目中避免被网站封禁的重要性,通过实例展示了如何在Python中设置代理进行请求。同时,提到了代理IP的获取途径和常见应用场景。
535

被折叠的 条评论
为什么被折叠?



