高性能HTTP加速器Varnish——概念与工作原理

1. HTTP协议

1.1 概念

http是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣,因为它使得开发和部署是那么的直截了当。

1.2 工作原理

HTTP是基于客户/服务器模式,且面向连接的。典型的HTTP事务处理有如下的过程:

(1)客户与服务器建立连接;
(2)客户向服务器提出请求;
(3)服务器接受请求,并根据请求返回相应的文件作为应答;
(4)客户与服务器关闭连接。

客户与服务器之间的HTTP连接是一种一次性连接,它限制每次连接只处理一个请求,当服务器返回本次请求的应答后便立即关闭连接,下次请求再重新建立连接。这种一次性连接主要考虑到WWW服务器面向的是Internet中成干上万个用户,且只能提供有限个连接,故服务器不会让一个连接处于等待状态,及时地释放连接可以大大提高服务器的执行效率。

HTTP是一种无状态协议,即服务器不保留与客户交易时的任何状态。这就大大减轻了服务器记忆负担,从而保持较快的响应速度。HTTP是一种面向对象的协议。允许传送任意类型的数据对象。它通过数据类型和长度来标识所传送的数据内容和大小,并允许对数据进行压缩传送。当用户在一个HTML文档中定义了一个超文本链后,浏览器将通过TCP/IP协议与指定的服务器建立连接。

从技术上讲是客户在一个特定的TCP端口(端口号一般为80)上打开一个套接字。如果服务器一直在这个周知的端口上倾听连接,则该连接便会建立起来。然后客户通过该连接发送一个包含请求方法的请求块。

HTTP规范定义了9种请求方法,每种请求方法规定了客户和服务器之间不同的信息交换方式,常用的请求方法是GET和POST。服务器将根据客户请求完成相应操作,并以应答块形式返回给客户,最后关闭连接。

1.3 运作方式

在WWW中,“客户”与“服务器”是一个相对的概念,只存在于一个特定的连接期间,即在某个连接中的客户在另一个连接中可能作为服务器。基于HTTP协议的客户/服务器模式的信息交换过程,它分四个过程:建立连接、发送请求信息、发送响应信息、关闭连接。

HTTP协议是基于请求/响应范式的。一个客户机与服务器建立连接后,发送一个请求给服务器,请求方式的格式为,统一资源标识符、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。服务器接到请求后,给予相应的响应信息,其格式为一个状态行包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。

其实简单说就是任何服务器除了包括HTML文件以外,还有一个HTTP驻留程序,用于响应用户请求。你的浏览器是HTTP客户,向服务器发送请求,当浏览器中输入了一个开始文件或点击了一个超级链接时,浏览器就向服务器发送了HTTP请求,此请求被送往由IP地址指定的URL。驻留程序接收到请求,在进行必要的操作后回送所要求的文件。在这一过程中,在网络上发送和接收的数据已经被分成一个或多个数据包(packet),每个数据包包括:要传送的数据;控制信息,即告诉网络怎样处理数据包。TCP/IP决定了每个数据包的格式。如果事先不告诉你,你可能不会知道信息被分成用于传输和再重新组合起来的许多小块。

许多HTTP通讯是由一个用户代理初始化的并且包括一个申请在源服务器上资源的请求。最简单的情况可能是在用户代理(UA)和源服务器(O)之间通过一个单独的连接来完成。

当一个或多个中介出现在请求/响应链中时,情况就变得复杂一些。中介有三种:代理(Proxy)、网关(Gateway)和通道(Tunnel)。一个代理根据URI的绝对格式来接受请求,重写全部或部分消息,通过URI的标识把已格式化过的请求发送到服务器。网关是一个接收代理,作为一些其它服务器的上层,并且如果必须的话,可以把请求翻译给下层的服务器协议。一个通道作为不改变消息的两个连接之间的中继点。当通讯需要通过一个中介(例如:防火墙等)或者是中介不能识别消息的内容时,通道经常被使用。

2.CDN缓存系统

2.1 概念

CDN:content distribute network(内容分发网络)或者content delivery network(内容交付网络)。CDN的任务是将内容从源站传递给用户。

常说的互联网由两层组成:

  • 一层是以TCP/IP为代表的网络层(狭义的互联网internet),另一层是以www为代表的应用层。
  • 过各种网络设备,实现各个计算机之间的互联互通,实现各种信息数据的低成本传输。
  • 举个简单例子来区分而这之间的差异:internet就是铁路轨道和各种信号灯,而www则是运行在internet上的众多火车中的一种。

2.2 CDN的工作原理

  • 无cdn时,用户通过浏览器访问网站的过程
    1.用户在浏览器输入URL
    2.浏览器向本地DNS请求域名解析
    3.如果本地DNS缓存有该域名的解析结果,则直接将解析结果返回给浏览器
    4.如果本地DNS缓存中无该域名的解析结果,则以递归方式向整个DNS系统请求域名解析,在获得应答后将解析结果返回给浏览器
    5.浏览器获得解析结果,提取出IP信息,使用IP向服务器请求数据
    6.服务器返回数据给浏览器

  • 有cdn时,用户通过浏览器访问网站的过程
    1.用户在浏览器中输入URL
    2.浏览器向本地DNS请求域名解析,DNS会将域名解析权转交给CNAME指向的CDN专用的DNS服务器
    3.CDN专用的DNS服务器将CDN的全局负载均衡设备的IP返回给浏览器
    4.浏览器向CDN全局负载均衡设备发起URL请求
    5.CDN全局负载均衡设备根据请求的URL和用户的IP地址,将用户请求转发到用户所在区域的区域负载均衡设备
    6.区域负载均衡设备,根据用户IP、请求URL、缓存服务器的负载情况等,返回一台合适的服务器IP给用户
    7.用户向缓存服务器发起请求
    8.缓存服务器响应用户请求,如果用户请求的内容缓存服务器上不存在,则缓存服务器要向上一级缓存服务器请求内容,直到追溯到网站的源服务器

3.Varnish

3.1什么是Varnish?

  • Varnish是一个反向HTTP代理,有时称为HTTP加速器或web加速器
  • Varnish将文件或文件片段储存在内存中,使他们能够快速被提供
  • Varnish本质上是一个键/值存储,它通常使用url作为键
  • Varnish是为现代硬件、现在操作系统和现代工作负载而设计的

3.2 Varnish加速器与Squid加速器的对比

  • Squid加速器(代理缓存服务器)是将从服务器要回来的资源放在自己的硬盘里,客户读取的速率很慢,代理的效率低

  • Varnish加速器(代理缓存服务器)是将从服务器要回来的资源放在自己的内存里,客户读取的速率很快,代理的效率高

3.3 Varnish代理服务器的工作方式

Varnish代理服务器的工作方式有两种:

  • 仅仅作为一个代理服务器:帮客户端去问服务端要数据,要回来的数据直接给客户端自己不缓存一份,这种情况是客户的隐私信息、热点信息、更新比较快的数据,不缓存,只代理。
  • 既代理又缓存:帮客户端去问服务端要数据,要回来的数据先给自己缓存一份,然后再发给客户端,这种情况是用于更新比较慢的数据,此时varnish既代理又缓存。

3.4 为什么要使用Varnish加速缓存代理服务器?

举个例子:全国有许多用户都在使用淘宝网购,而阿里的服务器总部在杭州。 全国许多用户都在使用淘宝时,会对浏览器造成很大的访问压力,甚至会造成服务器瘫痪。

现在阿里总部给每个地区都放Varnish代理服务器,每个地区的用户想访问淘宝资源的时候,都会间接去问自己地区的Varnish代理服务器要资源。 如果Varnish代理服务器上面没有资源,此时Varnish代理服务器就会去向杭州的服务器要资源,将要回来的资源视情况而定给自己缓存一份,然后再给客户端发一份。

这种情况下,Varnish代理服务器的数量远远少于淘宝用户的数量,即使所有的Varnish代理服务器同时向杭州总部的服务器要资源的时候,也不会给总部的服务器造成很大的压力,用户的浏览速度也不会因为人数太多而卡顿

假如代理服务器缓存了一些更新过的数据,当客户端再次要这个数据的时候,代理服务器会直接返回给客户端,不需要再去问总部的服务器要资源。 这就是把Varnish服务器叫做加速器的原因,加快了客户端和服务端之间的访问速率。

3.5 Varnish加速器的工作流程

Varnish启动会产生master主(management)进程和child子(worker ,主要做cache的工作)进程

作用:

  • master进程读入(更新)配置,vcl文件编译,varnish监控,初始化varnish及提供varnish管理接口。
  • child进程分配若干线程进行工作,主要包括一些管理线程和很多woker线程。

注意:Manegement进程每隔几秒探测以下child进程以判断其是否正常运行,如果在指定的时长内未得到child进程的回应,management将会重启此child进程

具体流程:

  • 针对文件缓存部分,master读入存储配置,调用合适的存储类型,然后创建/读入相应大小的缓存大文件。
  • 接着,master初始化管理该存储空间的结构体。这些变量都是全局变量,在fork以后会被child进程所继承(包括文件描述符)。
  • 在child进程主线程初始化过程中,将前面打开的存储大文件整个mmap到内存中(如果超出系统的虚拟内存,mmap失败,进程会减少原来的配置mmap大小,然后继续mmap)
    此时创建并初始化空闲存储结构体,挂到存储管理结构体,以待分配。
  • 接着,真正的工作开始,Varnish的某个负责接受新HTTP连接的线程开始等待用户,如果有新的HTTP连接过来,它总负责接收,
    然后叫醒某个等待中的线程,并把具体的处理过程交给它。Worker线程读入HTTP请求的URI,查找已有的object,
  • 如果命中则直接返回并回复用户。如果没有命中,则需要将所请求的内容,从后端服务器中取过来,存到缓存中,然后再回复。

分配缓存的过程:

  • varnish根据所读到object的大小,创建相应大小的缓存文件。为了读写方便,程序会把每个object的大小变为最接近其大小的内存页面倍数。
  • 然后从现有的空闲存储结构体中查找,找到最合适的大小的空闲存储块,分配给它。
  • 如果空闲块没有用完,就把多余的内存另外组成一个空闲存储块,挂到管理结构体上。
  • 如果缓存已满,就根据LRU机制,把最旧的object释放掉。 释放缓存的过程是这样的:有一个超时线程,检测缓存中所有object的生存期。
  • 如果超初设定的TTL(Time To Live)没有被访问,就删除它,并且释放相应的结构体及存储内存。(释放时会检查该存储内存块前面或后面的空闲内存块。如果前面或后面的空闲内存和该释放内存是连续的,就将它们合并成更大一块内存。)
  • 整个文件缓存的管理,没有考虑文件与内存的关系,实际上是将所有的object都考虑是在内存中
  • 如果系统内存不足,系统会自动将其换到swap空间,而不需要varnish程序去控制。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值