url和uri
- uri:统一资源标志符,url:统一资源定位符。
- 关系:url是uri的子集。
超文本
3.超文本可以理解为网页的源代码。
http和https
http:超文本传输协议,用于从网络传输超文本数据到本地浏览器的传送协议。优点:高效而准确。
- https:http的安全版,安全基础是ssl,传输内容经过ssl加密。
请求
- 内容:请求方法,请求网址,请求头,请求体。
- 请求方法:get和post
get和post区别:
(1)get请求中的参数全部包含在url里面
(2)get提交的数据最多1024字节,post没有限制。
(3)post用于提交表单或者上传文件。
请求头
(1) Accept:请求报头域,用于指定用户可接受哪些类型的信息
(2)Accept-Language:客户端可接受语言类型
(3) Accept-Encoding:客户端可以接受内容编码
(4) Host:用于指定请求资源的主机IP和端口号
(5) Cookie:网站为了辨别用户进行会话跟踪而储存在用户本地的数据,功能是维护当前访问会话
(6) Referer:标识请求从哪个页面发过来的
(7)User-Agent:UA,可以使服务器识别客户使用的操作系统及版本,浏览器及版本信息,加上UA,可以伪装成浏览器
(8)Content-Type:Mime类型(互联网媒体类型),用来表示请求中的媒体类型信息
响应
- 组成:响应状态码,响应头和响应体。
- 响应状态码
200:请求成功
301:永久重定向
302:临时重定向
400:客户端错误
401:未授权
403:服务器拒绝访问
404:页面未找到
405:请求方式不对
408:请求超时
500:服务器错误
503:服务器不可用
会话和cookies
1.会话对象用来存储特定会话所需属性和配置信息,在服务器端。
2.cookies
(1)浏览器上的会话,在客户端。
(2)包含domain(域名),value,name等。
代理
1.原理:网站采取反爬虫措施时,服务器限制ip的请求次数,超过会封ip,禁止访问,代理网络用户去取得网络信息。
2.好处:增加访问次数,访问一些平时不能访问的站点,隐藏真实的ip。