某些网站只接收5s接收一个数据,在我们进行大量爬取时本机IP可能会被网页封禁,这时就得使用代理IP
Cookies和Session:用来记录客户端状态的机制
http和https是一个无状态协议,无法记录用户信息;
1.Cookies与服务器关系:在请求和响应报文中写入Cookie 信息来控制客户端的状态;Cookie 会根据从服务器端发送的响应报文内的一个叫做Set-Cookie的首部字段信息,通知客户端保存Cookie。当下次客户端再往该服务器发送请求时,客户端会自动在请求报文中加入Cookie 值后发送出去。
第一次访问第二次有Cookies访问
2. Cookie来管理Session,Session的关系:
Session 对象存储特定用户会话所需的属性及配置信息。这样,当用户在应用程序的 Web 页之间跳转时,存储在 Session 对象中的变量将不会丢失,而是在整个用户会话中一直存在下去
1. 代理IP
透明IP:并没有隐藏本机IP,主机IP公开透明,对方服务器可以识别你的真实IP地址,不建议使用
高匿IP:不但将你的真实IP隐藏,并且不会改变你的访问请求,对方服务器会认为是一个真实用户在访问网页
付费代理IP:芝麻IP
判断IP优劣的方法:
- 速度:请求链接的速度在3-5s之间,若超过就是劣质IP
- 稳定性:代表代理IP存活的时间,一般在3-5min
- 安全性:在抓取敏感信息时,不会暴露IP,数据被调换等
- 价格
直连IP和隧道IP:转载-解释
- 直连转发:转发效率高,报文不需要经过多次解封装和封装,方便故障定位,但安全性不够
- 隧道转发:安全性高,经过DTLS加密,且报文数据需要封装隧道报头,转发效率低,不利于故障定位
白名单接口:把本机IP填入白名单,防止被盗用