代理
在爬虫中,代理指的是代理服务器,其作用是用来转发请求和响应。
爬虫在短时间内对服务器发起了高频请求,服务器监测到异常的行为请求后悔会将该请求对应设备的ip封禁,使本机设备无法对服务器端再次进行请求。此时就需要使用代理服务器进行请求转发,使用代理后,服务器端接收到请求对应的ip地址就是代理服务器。
代理服务器可选择性强,搜索关键词找到适用款。
代理服务器的匿名度
-
透明代理
- 使用后,服务器端可知本机真实ip以及使用了代理机制
-
匿名代理
- 使用后,服务器端可知本机使用代理,不知真实ip
-
高匿代理
- 使用后,服务器端不知本机使用代理,不知真实ip
(滑稽).jpg :网络不是法外之地,万一能查到也说不定
代理类型
- https/http
@品易云HTTP 博主文中所述:现在市面上有很多代理IP软件、爬虫代理,都提供HTTP、HTTPS、SOCKS5三种模式。
版权声明:本文为CSDN博主「品易云HTTP」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zn879762959/article/details/113846678
示例:快速爬取快代理上的ip
#模拟代理操作
import requests
from bs4 import BeautifulSoup
from lxml import etree
import random
headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36',
#被ip封掉后尝试,表明当前正在使用的tcp链接在请求处理完毕后会被断掉
'Connection'