认识url
url(union resource locator)就是我们常说的网址,通过服务器地址(DNS域名解析)就可以访问想要的服务。
在某些情况下,获取到的数据可能含有与url中的特殊字符冲突的字符,要求BS(brows&server)两端对数据进行编码和解码。
例如,搜索c++时,+会被编码为%2B
http协议格式
http请求分为四个部分:
- 请求行:
- 请求方法,GET POST等
- URL,请求的资源路径
- 协议版本,HTTP/1.1等
- 请求报头:包含了很多键值对,常见的类型有:
- Content-Type: 数据类型(text/html等)
- Content-Length: 请求正文的长度
- Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;
- User-Agent: 声明用户的操作系统和浏览器版本信息;
- referer: 当前页面是从哪个页面跳转过来的;
- location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;
- Cookie: 用于在客户端存储少量信息. 通常用于实现会话(session)的功能;
- 空行:回车换行符,分割报头和正文,表示请求报头结束。
- 请求正文:包含客户端要发给服务端的数据(可能没有)
http响应也分为四个部分:
- 状态行:
- 协议版本
- 状态码:三位数,表示请求的处理结果,如 200 表示成功,404 表示未找到资源。
- 状态信息: 对状态码的描述
- 响应报头:与请求类似
- 空行
- 响应正文:包含服务器返回的数据,如请求的网页内容、图片、JSON数据等。
下面对报文的这些部分进行介绍
http的请求方法
常用的就是GET和POST方法。二者的作用和区别是什么?
GET和POST都可以向服务端提交参数,但是GET通过url提交,POST通过请求正文提交。
GET
:在表单中用get方法提交,在url中都可以看到提交的参数
POST
参数在请求正文
http的url
每个服务端都有一个服务根目录,客户端在不加路径访问时,默认访问根目录的内容。具体的实现逻辑就是,服务端对收到的请求报文做分割,得到请求行的url部分,如果url是根目录就向客户端发送首页内容。
第一次访问没有带路径,第二次访问带首页路径,虽然二者的请求行url不一样但是访问的结果一样。
http的状态码
注:存在一套状态码的规定,但是可能每个浏览器的处理会有不同、
- 1xx(信息性状态码):表示接收的请求正在处理。
- 2xx(成功状态码):表示请求正常处理完毕。
- 3xx(重定向状态码):需要后续操作才能完成这一请求。
- 4xx(客户端错误状态码):表示请求包含语法错误或无法完成。
- 5xx(服务器错误状态码):服务器在处理请求的过程中发生了错误。
客户端收到的3xx状态码报文的报头中会有一个Location,这个值就是要跳转页面的地址。
上面是一个服务端响应报文的简单模拟。在访问服务器后,页面重定向到了腾讯网
http的报头
- Content-Length: 请求正文的长度
- Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;
- User-Agent: 声明用户的操作系统和浏览器版本信息;
- referer: 当前页面是从哪个页面跳转过来的;
- location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;(状态码部分讲过了)
以上报头内容望文生义,很容易理解。
这是从首页跳转到另一个页面服务器收到的报文
- Connection:表示是否支持长连接。一个页面往往包含很多资源,长连接可以让TCP一次连接传输多个数据,而短连接发一次数据就要建立一次连接。
- Content-Type:数据类型(text/html等) ,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件。Content-Type 标头告诉客户端实际返回的内容的内容类型。
- Cookie: 用于在客户端存储少量信息。
我们在登录一个网站后,往往在一段时间内不需要再次登录,这是因为浏览器有一个cookie文件,会记录下登录的信息,当我们再次访问这个页面时,会自动将登录信息发给服务器。
在响应报头中加入Set-Cookie。
看到的响应报文
浏览器中的cookie文件内容
Cookie文件分为内存级和文件级,如果保存到内存中,文件可能在关闭浏览器后就会删除 。不同级别保存的周期不同,这都取决于浏览器的处理。