1. requests设置代理
- 使⽤requests添加代理,只需要在请求方法中(get/post)传递proxies参数就可以了
- 代理网站
西刺免费代理IP:http://www.xicidaili.com/
快代理:http://www.kuaidaili.com/
代理云:http://www.dailiyun.com/
2. cookie
- cookie :通过在客户端记录的信息确定用户身份
- HTTP是⼀种无连接协议,客户端和服务器交互仅仅限于:请求/响应过程,结束后断开。下⼀次请求时,服务器会认为是⼀个新的客户端,为了维护他们之间的连接, 让服务器知道这是前⼀个⽤户发起的请求,必须在⼀个地方保存客户端信息。
3. session
- session :通过在服务端记录的信息确定用户身份,这里这个session就是⼀个指的是会话
4. cookie和session区别
- cookie数据存放在客户端的浏览器上
- session数据放在服务器上
- cookie不是很安全,别⼈可以分析存放在本地的cookie,并进行cookie欺骗
- session会在⼀定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能
- 单个cookie保存的数据不能超过4K,很多浏览器都限制⼀个站点最多保存 20个cookie
5. 爬虫处理cookie和session
- 带上cookie、session的好处:能够请求到登录之后的页面
- 带上cookie、session的弊端:⼀套cookie和session往往和⼀个用户对应请求太多,请求次数太多,容易被服务器识别为爬虫
- 不需要cookie的时候尽量不去使用cookie
- 但是为了获取登录之后的页面,我们必须发送带有cookies的请求
form表单 前端 数据提交的
action 表单提交的地址
6. 请求登录之后的网站的思路:
- 实例化session
- 先使⽤session发送请求,登录对应网站,把cookie保持在session中
- 在使⽤session请求登录之后才能访问的网站,session能够自动携带登录成功时,保存在其中的cookie,进⾏请求
7. 处理不信任的SSL证书
什么是SSL证书?
- SSL证书是数字证书的⼀种,类似于驾驶证、护照和营业执照的电子副本。 因为配置在服务器上,也称为SSL服务器证书。SSL证书就是遵守SSL协议,由受信任的数字证书颁发机构CA,在验证服务器身份后颁发,具有服务器身份验证和数据传输加密功能