1.如果爬虫运行时报SSLError
requests.get(url,verify=False)
避开SSL安全认证即可
http协议
https协议:http+SSL
2.代理IP
构造代理IP字典
proxies_user = {
"https":"http://1.1.1.1:8888"
}
proxies字典中的键名(协议头)-->需要跟请求的url协议头类型保持一致
proxies字典中的键值-->协议://IP地址:端口号 冒号必须是英文状态下的冒号
response_user= requests.get(url, proxies=proxies_user)
3.如何测试代理IP是否有效
通过代理IP地址去发送get请求
http://myip.ipip.net/
如果正常连接,response.text会返回代理IP地址信息 (不要用content返回)
如果连接失败,则报错
4.timeout参数
在get或者post请求括号参数内添加字段timeout=XXX(XXX以秒为单位)
可以剔除响应太慢的IP
5.retry的使用
retry是一个第三方包,需要导入
retry是一个带参数的装饰器
from retrying import retry
@retry(stop_max_attempt_number=3) # 表示最大连接次数为3次