反爬虫--代理

最新推荐文章于 2023-07-17 09:53:45 发布

不知如何

最新推荐文章于 2023-07-17 09:53:45 发布

阅读量176

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44663889/article/details/112597599

版权

python 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

反爬虫

重试3次：

当请求失败一次后再重新发起3次请求（一共发起四次请求）

from requests.adapters import HTTPAdapter
s_requests = requests.Session()
s_requests.mount('http://', HTTPAdapter(max_retries=3))
s_requests.mount('https://', HTTPAdapter(max_retries=3))

使用代理：

proxies={"http": "http://{}".format(proxy)}

或者

proxies={'http':'http://{}'.format(proxy),

https':'https://{}'.format(proxy)}

使用proxies是使用http还是https，主要取决于所要爬取网站的协议

注：使用http是不会出错的！因为支持https的必然支持http，而支持http的不一定支持https

proxy = s_requests.get(ip_request_url).text
print("我更换了IP:" + proxy)
res = s_requests.get(
    url, headers=headers,proxies={"http": "http://{}".format(proxy)}).text

超时处理：

timeout=(3,10)用作设置响应时间的，响应时间分为连接时间和读取时间

此例中‘3’对应连接时间，‘10’对应读取时间

为防止服务器不能及时响应，大部分发至外部服务器的请求都应该带着 timeout 参数

在默认情况下，requests只会做连接超时处理，但是不会自动进行读取超时处理，如果没有读取时间的timeout，代码可能会挂起若干分钟甚至更长时间，这就是大部分人爬虫卡在一个地方却不报错的最终原因

res = s_requests.get(url,headers=headers, proxies={"http": "http://{}".format(proxy)},timeout=(3,10)).text

不知如何

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
反爬虫--代理

反爬虫重试3次：当请求失败一次后再重新发起3次请求（一共发起四次请求）from requests.adapters import HTTPAdapters_requests = requests.Session()s_requests.mount('http://', HTTPAdapter(max_retries=3))s_requests.mount('https://', HTTPAdapter(max_retries=3))使用代理：proxies={"http": "
复制链接

扫一扫