Socket套接字、HTTP协议简单介绍、URI、网站访问量、http请求处理过程、HTTPD介绍、MPM工作模式

Socket套接字

Socket:套接字,进程间通信IPC的一种实现,允许位于不同主机(或同一主机)上不同进程之间进行通信和数据交换,SocketAPI出现于1983年,4.2 BSD实现
Socket API:封装了内核中所提供的socket通信相关的系统调用
Socket Domain:根据其所使用的地址
AF_INET:Address Family,IPv4
AF_INET6:IPv6
AF_UNIX:同一主机上不同进程之间通信时使用

Socket Type:根据使用的传输层协议
SOCK_STREAM:流,tcp套接字,可靠地传递、面向连接
SOCK_DGRAM:数据报,udp套接字,不可靠地传递、无连接
SOCK_RAW: 裸套接字,无须tcp或udp,APP直接通过IP包通信

socket工作过程
服务器端: socket 创建套接字
bind 命名套接字 协议 本地地址和端口
listen 启动监听
等待连接
socket 创建套接字
发起connect请求
服务器: 接受连接
创建子socket

接受请求后原socket仍然负责监听,由子socket与客户端进行通信

HTTP协议简单介绍

http/1.1:1997年1月
引入了持久连接(persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。对于同一个域名,大多数浏览器允许同时建立6个持久连接

引入了管道机制(pipelining),即在同一个TCP连接里,客户端可以同时发送多个
请求,进一步改进了HTTP协议的效率

新增方法:PUT、PATCH、OPTIONS、DELETE

同一个TCP连接里,所有的数据通信是按次序进行的。服务器只能顺序处理回应,前面的回应慢,会有许多请求排队,造成"队头堵塞"(Head-of-line blocking)

为避免上述问题,两种方法:一是减少请求数,二是同时多开持久连接。网页优化技巧,如合并脚本和样式表、将图片嵌入CSS代码、域名分片(domain sharding)等

HTTP 协议不带有状态,每次请求都必须附上所有信息。请求的很多字段都是重复的,浪费带宽,影响速度

Spdy:2009年
谷歌研发,解决 HTTP/1.1 效率不高问题

http/2.0:2015年
HTTP2.0是SPDY的升级版
头信息和数据体都是二进制,称为头信息帧和数据帧

复用TCP连接,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,且不用按顺序一一对应,避免了“队头堵塞“,此双向的实时通信称为多工(Multiplexing)

引入头信息压缩机制(header compression),头信息使用gzip或compress压缩后再发送;客户端和服务器同时维护一张头信息表,所有字段都会存入这个表,生成一个索引号,不发送同样字段,只发送索引号,提高速度

HTTP/2 允许服务器未经请求,主动向客户端发送资源,即服务器推送(server push)

工作机制:
http请求:http request
http响应:http response
一次http事务:请求<–>响应

Web资源:web resource
一个网页由多个资源构成,打开一个页面,会有多个资源展示出来,但是每个资源都要单独请求。因此,一个“Web 页面”通常并不是单个资源,而是一组资源的集合

静态文件:无需服务端做出额外处理
文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi

动态文件:服务端执行程序,返回执行的结果
文件后缀:.php, .jsp ,.asp

提高HTTP连接性能
并行连接:通过多条TCP连接发起并发的HTTP请求
持久连接:keep-alive,长连接,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
管道化连接:通过共享TCP连接发起并发的HTTP请求
复用的连接:交替传送请求和响应报文(实验阶段)

HTTP1.0和HTTP1.1的区别

缓存处理:在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则加入了更多的缓存控制策略例如Entity tag、If-Unmodified-Since、If-Match、If-None-match等更多可供选择的缓存头来控制缓存策略

优化带宽及网络连接:HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要对象的一部分,而服务器却把整个对象送过来了,并且不支持断点续传,HTTP1.1在请求头加入了range头域,它允许只请求资源的某个部分,即返回码是206(Partial Content),方便开发者自由的选择以便充分利用带宽和连接

错误通知管理:在HTTP1.1中新增了24个状态响应码,例如409(Conflict)表示请求的资源与资源当前状态冲突。410(Gone)表示服务器上的某个资源被永久性的删除

Host头处理:在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此请求消息中的URL并没有传递主机名(hostname),但是随着虚拟主机的技术发展,在一台物理服务器上可以存着多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址,HTTP1.1的请求消息和响应消息都支持Host头域,请求消息中如果没有Host头域会报告一个错误(400 Bad Request)

长连接:HTTP1.1支持长连接(PersistentConnection)和请求的流水线(Pipelining)处理,在一个TCP连接上可传送多个HTTP请求和响应,减少了建立和关闭连接的消耗与延迟,在HTTP1.1中默认开启Connection:keep-alive,弥补了HTTP1.0每次请求都要创建连接的缺点

HTTP1.0和1.1现存的问题

1.在传输数据时,每次都需要重新连接,无疑增加了大量的延迟,特别是在移动端更为突出

2.所有传输的内容都是明文,客户端和服务器都无法验证对方的身份,无法保证数据的安全性

3.header里携带的内容过大,增加了传输的成本,并且每次请求header基本不怎么变化,在移动端增加用户流量

4.虽然支持了keep-alive来弥补多次创建连接产生的延迟,但是keep-alive使用多了同样会给服务器端带来性能压力,并且对于单个文件被不断请求的服务例如图片存放网站,keep-alive可能会极大的影响性能,因为它在文件被请求之后还在很长时间内保持了不必要的链接

HTTP2.0和SPDY的区别

HTTP2.0支持明文HTTP传输,而SPDY强制使用HTTPS
HTTP2.0消息头的压缩算法采用HPACK,而SPDY是DEFLATE

HTTPS

为了解决安全问题,网景在1994年创建了HTTPS,并应用在网景导航者浏览器中,最初HTTPS是与SSL一起使用的。在SSL逐渐演变到TLS时(其实是同一个东西,只是名字不同),最新的HTTPS也在2000年5月公布的RFC 2818正式确定下来。HTTPS就是安全版的HTTP,目前大型网站基本实现全站HTTPS

HTTPS协议需要到CA申请证书,一般需要付费
HTTP协议运行在TCP之上,所有传输内容都是明文,HTTPS运行在SSL/TLS之上,SSL/TLS运行在TCP之上,所有传输内容都经过加密
HTTP和HTTPS使用的是不同的连接方式,端口也不同,HTTP是80,HTTPS是443
HTTPS可以有效防止运营商劫持,解决了防劫持的一个大问题
HTTPS中的SSL握手等过程会降低用户访问速度,但只要经过合理优化部署,对速度的影响完全可以接受

URI

URI: Uniform Resource Identifier 统一资源标识,分为URL和URN

URN: Uniform Resource Naming,统一资源命名
示例: P2P下载使用的磁力链接是URN的一种实现
magnet:?xt=urn:btih:660557A6890EF888666

URL: Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置

两者区别:URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。URN仅用于命名,而不指定地址

URL组成
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:方案,访问服务器以获取资源时要使用哪种协议
user:用户,某些方案访问资源时需要的用户名
password:密码,用户对应的密码,中间用:分隔
Host:主机,资源宿主服务器的主机名或IP地址
port:端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
path:路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
params:参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
query:查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
frag:片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

网站访问量

IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次,记录远程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标

PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页面数量

UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的

网站访问统计示例:
甲乙丙三人在同一台通过ADSL上网的电脑上(中间没有断网),分别访问www.test.com网站,并且每人各浏览了2个页面,那么网站的流量统计是:
IP: 1 PV:6 UV:1

若三人都是ADSL重新拨号后,各浏览了2个页面,则
IP: 3 PV:6 UV:1

网站访问量:
QPS:request per second,每秒请求数

PV,QPS,并发连接数换算公式
QPS= PV* 页⾯衍⽣连接次数/ 统计时间(86400)
并发连接数 =QPS * http平均响应时间

峰值时间:每天80%的访问集中在20%的时间里,这20%时间为峰值时间

峰值时间每秒请求数(QPS)=( 总PV数 * 页面衍生连接次数)* 80% ) / ( 每天秒数 * 20% )

http请求处理过程

一次完整的http请求处理过程如下:
1、建立连接:接收或拒绝连接请求

2、接收请求:接收客户端请求报文中对某资源的一次请求的过程

3、处理请求:服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理

4、访问资源:服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源

5、构建响应报文:
一旦Web服务器识别除了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中 包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体
①响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括:描述了响应主体MIME类型的Content-Type首部描述了响应主体长度的Content-Length实际报文的主体内容
②URL重定向:web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径
③MIME类型:
Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来
魔法分类:Apache web服务器可以扫描每个资源的内容,并将其与一个已知模式表(被称为魔法文件)进行匹配,以决定每个文件的MIME类型。这样做可能比较慢,但很方便,尤其是文件没有标准扩展名时

显式分类:可以对Web服务器进行配置,使其不考虑文件的扩展名或内容,强制特定文件或目录内容拥有某个MIME类型

类型协商: 有些Web服务器经过配置,可以以多种文档格式来存储资源。在这种情况下,可以配置Web服务器,使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)“最好”

6、发送响应报文
Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束了

7、记录日志
最后,当事务结束时,Web服务器会在日志文件中添加一个条目,来描述已执行的事务

Web访问响应模型(Web I/O)
单进程I/O模型:启动一个进程处理用户请求,而且一次只处理一个,多个请求被串行响应
多进程I/O模型:并行启动多个进程,每个进程响应一个连接请求复用I/O结构:启动一个进程,同时响应N个连接请求
实现方法:多线程模型和事件驱动
多线程模型:一个进程生成N个线程,每线程响应一个连接请求
事件驱动:一个进程处理N个请求
复用的多进程I/O模型:启动M个进程,每个进程响应N个连接请求,同时接收M*N个请求

元数据:请求报文首部
<method> <URL> <VERSION>
HEADERS 格式 name:value
<request body>
示例:
Host: www.test.com 请求的主机名称
Server: Apache/2.4.7

HTTP常用请求方式,Method
GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

资源放置于本地文件系统特定的路径:DocRoot
DocRoot /var/www/html
/var/www/html/images/logo.jpg
http://www.test.com/images/logo.jpg

web服务器资源路径映射方式:
1.docroot
2.alias
3.虚拟主机docroot
4.用户家目录docroot

HTTPD介绍

20世纪90年代初,国家超级计算机应用中心NCSA开发
1995年开源社区发布apache(a patchy server)
ASF: apache software foundation
FSF:Free Software Foundation

特性:
高度模块化:core + modules
DSO: Dynamic Shared Object 动态加/卸载
MPM:multi-processing module多路处理模块
虚拟主机
  IP、Port、FQDN
CGI:Common Gateway Interface,通用网关接口
反向代理
负载均衡
路径别名
丰富的用户认证机制
  basic
  digest
  支持第三方模块

2.4新特性
新特性
MPM支持运行为DSO机制;以模块形式按需加载
event MPM生产环境可用
异步读写机制
支持每模块及每目录的单独日志级别定义
每请求相关的专用配置
增强版的表达式分析式
毫秒级持久连接时长定义
基于FQDN的虚拟主机不需要NameVirutalHost指令
新指令,AllowOverrideList
支持用户自定义变量
更低的内存消耗

MPM工作模式

prefork:多进程I/O模型,每个进程响应一个请求,默认模型
一个主进程:生成和回收n个子进程,创建套接字,不响应请求
多个子进程:工作work进程,每个子进程处理一个请求;系统初始时,预先生成多个空闲进程,等待请求,最大不超过1024个

主进程
子进程
子进程
子进程
线程
线程
线程

worker:复用的多进程I/O模型,多进程多线程,IIS使用此模型一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n

主进程
子进程
子进程
多个线程
多个线程

event:事件驱动模型(worker模型的变种)一个主进程:生成m个子进程,每个进程直接响应n个请求,并发响应请求:m*n,有专门的线程来管理这些keep-alive类型的线程,当有真实请求时,将请求传递给服务线程,执行完毕后,又允许释放。这样增强了高并发场景下的请求处理能力
httpd-2.2:event 测试版
httpd-2.4:event 稳定版

主进程
子进程
子进程
多个线程
管理线程
线程
线程
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值