HTTP 概述
HTTP 是什么?
HTTP(HyperText Transfer Protocol,超文本传输协议)是WWW (World Wide Web)实现数据通信的基石。
HTTP是由IETF(Internet Engineering Task Force,互联网工程工作小组) 和W3C(World Wide Web Consortium,万维网协会) 共同合作制订的,它们发布了一系列的RFC(Request For Comments),其中最著名的是RFC 2616,它定义了HTTP /1.1。
它是一种应用层协议(OSI七层模型的最顶层),它基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。
实例
如果你学习过计算机网络,熟悉OSI模型,那么你可以跳过这个实例了。
而不了解OSI模型的朋友,不妨通过一个实例来对HTTP报文有一个感性的认识。
以下是使用 wireshark 抓取的一个实际访问百度首页的 HTTP GET 报文:
可以清楚的看到它的层级结构如下图,经过了层层的包装。
工作原理
HTTP 工作于Client/Server(客户端/服务器)模型上。
客户端和服务器之间的通信采用request/response(请求/响应)机制。
客户端是终端(可以是浏览器、爬虫程序等),服务器是网站的Web服务器。
一次HTTP 操作称为一个事务,其工作过程大致可分为四步:
(1)建立连接:首先,客户端和服务器需要建立一个到服务器指定端口(默认端口号为80)的TCP连接。
注:虽然HTTP 采用TCP连接是最流行的方式,但是RFC并没有指定一定要采用这种网络传输方式。
(2)发送请求信息:客户端向服务器发送请求。请求方式的格式为,统一资源标识符、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。
(3)发送响应信息:服务器监听指定接口是否收到请求,一旦发现请求,处理后,返回响应结果给客户端。其格式为一个状态行包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。
(4)关闭连接:客户端根据响应,显示结果给用户,最后关闭连接。
特点
-
无连接的:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
-
无状态的:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
-
媒体独立的:这意味着,只要客户端和服务器知道如何处理的数据内容,任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。
-
C/S模型的:基于Client/Server模型工作。
HTTP 消息结构
HTTP是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。
一个HTTP"客户端"是一个应用程序(Web浏览器或其他任何客户端),通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。
一个HTTP"服务器"同样也是一个应用程序(通常是一个Web服务,如Apache Web服务器或IIS服务器等),通过接收客户端的请求并向客户端发送HTTP响应数据。
HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。
一旦建立连接后,数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展(**MIME)[RFC2045]**来传送。
客户端请求消息
客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式。
服务器响应消息
HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。
HTTP 请求
根据HTTP标准,HTTP请求可以使用多种请求方法。
HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT方法。
- HTTP 请求消息头
HTTP 响应
HTTP 响应消息头
HTTP 状态码
当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。
HTTP状态码的英文为HTTP Status Code。
下面是常见的HTTP状态码:
- 200 - 请求成功
- 301 - 资源(网页等)被永久转移到其它URL
- 404 - 请求的资源(网页等)不存在
- 500 - 内部服务器错误
HTTP状态码分类
HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:
- HTTP 状态列表:
转自:静默虚空
注:作者博客很好看哈哈
参考
http://blog.csdn.net/gueter/article/details/1524447