(1):浅谈HTTP事务的一次过程

17 篇文章 0 订阅

一、浅谈HTTP事务的一个过程

1.DNS域名解析
2.发起TCP的3次握手
3.建立TCP连接后发起HTTP请求
4.服务器响应HTTP请求
5.浏览器解析html代码,并请求html代码中的资源
6.浏览器进行页面渲染
7.服务器关闭TCP连接

二、说明

当我们在浏览器栏输入:https://baidu.com,的时候,具体发生了什么呢?这个请求是怎么到达服务器及返回结果的呢?

三、过程详解

1、DNS域名解析

首先Chrome浏览器会解析www.baidu.com 这个域名对应的IP地址。
① 浏览器搜索自身的DNS缓存,看是否有www.baidu.com 对应的条目,如果有,而且没有过期则解析到此结束。
② 如果没有找到对应的条目,那么Chrome会搜索操作系统自身的DNS缓存,如果找到且没过期则停止搜索解析到此结束.
③ 如果在Windows系统的DNS缓存也没有找到,那么尝试读取hosts文件,看有没有该域名对应的IP地址,如果有则解析成功。
④ 如果在hosts文件中也没有找到对应的条目,浏览器就会发起一个DNS的系统调用,就会向本地配置的首选DNS服务器发起域名解析请求,运营商的DNS服务器首先查找自身的缓存,找到对应的条目,且没有过期,则解析成功。

2、发起TCP的3次握手

① 拿到域名对应的IP地址后,User-Agent(一般是指浏览器)会以一个随机端口(1024 < 端口 < 65535)向服务器的WEB程序80端口发起TCP的连接请求。这个连接请求(原始的http请求经过TCP/IP4层模型的层层封包)到达服务器端后,进入到网卡,然后是进入到内核的TCP/IP协议栈,还有可能要经过Netfilter防火墙的过滤,最终到达WEB程序,建立了TCP/IP的连接。在TCP/IP协议中,TCP协议提供可靠的连接服务,采用三次握手建立一个连接:
① 第一次握手:客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;
② 第二次握手:服务器收到syn包,必须确认客户的SYN(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;
③ 第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。
④ 握手过程中传送的包里不包含数据,三次握手完毕后,客户端与服务器才正式开始传送数据。理想状态下,TCP连接一旦建立,在通信双方中的任何一方主动关闭连接之前,TCP 连接都将被一直保持下去。断开连接时服务器和客户端均可以主动发起断开TCP连接的请求,断开过程需要经过“第四次握手”,就是服务器和客户端交互,最终确定断开。

3、建立TCP连接后发起HTTP请求

① 说明:HTTP是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。
1) 在HTTP 1.0中,客户端的每次请求都要求建立一次单独的连接,在处理完本次请求后,就自动释放连接。
2) 在HTTP 1.1中则可以在一次连接中处理多个请求,并且多个请求可以重叠进行,不需要等待一个请求结束后再发送下一个请求。由于HTTP在每次请求结束后都会主动释放连接,因此HTTP连接是一种“短连接”,要保持客户端程序的在线状态,需要不断地向服务器发起连接求。通常 的做法是即时不需要获得任何数据,客户端也保持每隔一段固定的时间向服务器发送一次“保持连接”的请求,服务器在收到该请求后对客户端进行回复,表明知道客户端“在线”。若服务器长时间无法收到客户端的请求,则认为客户端“下线”,若客户端长时间无法收到服务器的回复,则认为网络已经断开。
3) 进过TCP3次握手之后,浏览器发起了http的请求,使用的http的方法 GET 方法,请求的URL是 / ,协议是HTTP/1.0。那么HTTP请求报文和响应报文会是什么格式呢?
a. 起始行:如 GET / HTTP/1.0 (请求的方法、请求的URL 请求所使用的协议)
b. 头部信息:User-Agent Host等成对出现的值
c. 主体
4) 起始行中的请求方法有以下:

GET

GET是HTTP的默认请求方式,一般用来获取数据,传输的数据经过url编码后放在路径?之后,多个键值对通过&连接,另外get的传输长度一般不推荐超过255个字节。
GET方法一般被视为安全方法, 因为它仅用来获取数据而不会对服务器有其他改动。像HEAD、GET、OPTIONS 和 TRACE这几种http方法是被认为是“安全的”,它们只会进行获取数据而不会修改服务器的状态,可用于记录日志、创建缓存或者创建其他统计信息。相反,像POST、PUT、DELETE 和 PATCH 等方法是有可能产生副作用。网络爬虫等一般不会使用这些方式

POST

POST一般用来上传文件或者提交一个完整的web表单。浏览器中提交表单时,这里与get类似,每个键值对都是通过&分割, 其他非字母数字会进行url转码。
为什么一些请求会使用POST提交数据?

  • (1)GET请求数据都可以在URL中看到
  • (2)GET提交的数据都会有长度限制
  • (3)一般规范,POST用来修改数据,GET用来获取数据
  • (4)GET请求提交的数据放置在HTTP请求协议头中,而POST提交的数据放在实体数据中

其他请求方式

  • (1)HEAD获取某个URI响应头信息,基本与GET相同但是不返回响应主体。
  • (2)PUT通过提供的URI获取到特定的内容主体,如果存在则修改内容,如果不存在则创建。
  • (3)DELETE通过URI删除指定内容
  • (4)TRACE返回接受到的请求,用来查看数据经过中间服务器时发生了哪些变动
  • (5)OPTIONS返回给定URL支持的所有HTTP方法
  • (6)CONNECT要求使用SSL和TLS进行TCP通信
  • (7)PATCH请求修改局部数
那什么是URL、URI、URN?
  • (1)URI Uniform Resource Identifier 统一资源标识符
  • (2)URL Uniform Resource Locator 统一资源定位符
  • (3)URN Uniform Resource Name 统一资源名称
    说明:URL和URN 都属于 URI,为了方便就把URL和URI暂时都通指一个东西

4、服务器响应HTTP请求

服务器端WEB程序接收到HTTP请求以后,就开始处理该请求,处理之后就返回给浏览器html文件

(1)1xx: 信息性状态码

  • 100, 101

(2)2xx: 成功状态码

  • 200:OK

(3)3xx: 重定向状态码

  • 301: 永久重定向, Location响应首部的值仍为当前URL,因此为隐藏重定向;
  • 302: 临时重定向,显式重定向, Location响应首部的值为新的URL
  • 304:Not Modified 未修改,比如本地缓存的资源文件和服务器上比较时,发现并没有修改,服务器返回一个304状态码,告诉浏览器,你不用请求该资源,直接使用本地的资源即可。

(4)4xx: 客户端错误状态码

  • 404: Not Found 请求的URL资源并不存在

(5)5xx: 服务器端错误状态码

  • 500: Internal Server Error 服务器内部错误
  • 502: Bad Gateway 前面代理服务器联系不到后端的服务器时出现
  • 504:Gateway Timeout 这个是代理能联系到后端的服务器,但是后端的服务器在规定的时间内没有给代理服务器响应

5、浏览器解析html代码,并请求html代码中的资源

(1)浏览器拿到index.html文件后,就开始解析其中的html代码,遇到js/css/image等静态资源时,就向服务器端去请求下载(会使用多线程下载,每个浏览器的线程数不一样),这个时候就用上keep-alive特性了,建立一次HTTP连接,可以请求多个资源,下载资源的顺序就是按照代码里的顺序,但是由于每个资源大小不一样,而浏览器又多线程请求请求资源,顺序并不一定是代码里面的顺序。
(2)浏览器在请求静态资源时(在未过期的情况下),向服务器端发起一个HTTP请求(询问自从上一次修改时间到现在有没有对资源进行修改),如果服务器端返回304状态码(告诉浏览器服务器端没有修改),那么浏览器会直接读取本地的该资源的缓存文件。

6、浏览器进行页面渲染

(1)最后,浏览器利用自己内部的工作机制,把请求的静态资源和html代码进行渲染,渲染之后呈现给用户,浏览器是一个边解析边渲染的过程。
(2)首先浏览器解析HTML文件构建DOM树,然后解析CSS文件构建渲染树,等到渲染树构建完成后,浏览器开始布局渲染树并将其绘制到屏幕上。
(3)这个过程比较复杂,涉及到两个概念: reflow(回流)和repain(重绘)。DOM节点中的各个元素都是以盒模型的形式存在,这些都需要浏览器去计算其位置和大小等,这个过程称为relow;当盒模型的位置,大小以及其他属性,如颜色,字体,等确定下来之后,浏览器便开始绘制内容,这个过程称为repain。
(4)页面在首次加载时必然会经历reflow和repain。reflow和repain过程是非常消耗性能的,尤其是在移动设备上,它会破坏用户体验,有时会造成页面卡顿。所以我们应该尽可能少的减少reflow和repain。
(5)JS的解析是由浏览器中的JS解析引擎完成的。JS是单线程运行,JS有可能修改DOM结构,意味着JS执行完成前,后续所有资源的下载是没有必要的,所以JS是单线程,会阻塞后续资源下载。

7、服务器关闭TCP连接

(1)一般情况下,一旦Web服务器向浏览器发送了请求数据,它就要关闭TCP连接。
(2)而关闭TCP连接就需要进行四次挥手了。中断连接端可以是客户端,也可以是服务器端。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值