HTTP协议详解-CSDN博客

转载于：【http://www.cnblogs.com/TankXiao/category/415412.html】

HTTP协议详解

协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则，超文本传输协议(HTTP)是一种通信协议，它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器

目前我们使用的是HTTP/1.1 版本

URL详解

schema://host[:port#]/path/.../[?query-string][#anchor]

scheme 指定低层使用的协议(例如：http, https, ftp)

host HTTP服务器的IP地址或者域名

port# HTTP服务器的默认端口是80，这种情况下端口号可以省略。如果使用了别的端口，必须指明，例如 http://www.cnblogs.com:8080/

path 访问资源的路径

query-string 发送给http服务器的数据

anchor- 锚

举例说明：

http://www.mywebsite.com/sj/test/test.aspx?name=sviergn&x=true#stuff

Schema: http

host: www.mywebsite.com

path: /sj/test/test.aspx

Query String: name=sviergn&x=true

Anchor: stuff

HTTP协议是无状态的

http协议是无状态的，同一个客户端的这次请求和上次请求是没有对应关系，对http服务器来说，它并不知道这两个请求来自同一个客户端。为了解决这个问题， Web程序引入了Cookie机制来维护状态.

打开一个网页需要浏览器发送很多次Request

因为一个网页上有很多资源

HTTP消息的结构

先看Request 消息的结构, Request 消息分为3部分，第一部分叫Request line, 第二部分叫Requestheader, 第三部分是body. header和body之间有个空行，结构如下图：

第一行中的Method表示请求方法,比如"POST","GET", Path-to-resoure表示请求的资源，Http/version-number 表示HTTP协议的版本号

当使用的是"GET" 方法的时候， body是为空的

比如我们打开博客园首页的request 如下

我们再看Response消息的结构, 和Request消息的结构基本一样。同样也分为三部分,第一部分叫Response line, 第二部分叫Responseheader，第三部分是body. header和body之间也有个空行, 结构如下图

HTTP/version-number表示HTTP协议的版本号， status-code 和message 请看下节

Get和Post方法的区别

Http协议定义了很多与服务器交互的方法，最基本的有4种，分别是GET,POST,PUT,DELETE.一个URL地址用于描述一个网络上的资源，而HTTP中的GET, POST, PUT, DELETE就对应着对这个资源的查，改，增，删4个操作。我们最常见的就是GET和POST了。GET一般用于获取/查询资源信息，而POST一般用于更新资源信息.

状态码

Response 消息中的第一行叫做状态行，由HTTP协议版本号，状态码，状态消息三部分组成。

状态码用来告诉HTTP客户端,HTTP服务器是否产生了预期的Response.

HTTP/1.1中定义了5类状态码，状态码由三位数字组成，第一个数字定义了响应的类别

1XX 提示信息 - 表示请求已被成功接收，继续处理

2XX 成功 - 表示请求已被成功接收，理解，接受

3XX 重定向 - 要完成请求必须进行更进一步的处理

4XX 客户端错误 - 请求有语法错误或请求无法实现

5XX 服务器端错误 - 服务器未能实现合法的请求

400 Bad Request 客户端请求与语法错误，不能被服务器所理解

403 Forbidden 服务器收到请求，但是拒绝提供服务

404 Not Found

请求资源不存在（输错了URL）

HTTP协议是无状态的和Connection: keep-alive的区别

无状态是指协议对于事务处理没有记忆能力，服务器不知道客户端是什么状态。从另一方面讲，打开一个服务器上的网页和你之前打开这个服务器上的网页之间没有任何联系

HTTP是一个无状态的面向连接的协议，无状态不代表HTTP不能保持TCP连接，更不能代表HTTP使用的是UDP协议（无连接）

从HTTP/1.1起，默认都开启了Keep-Alive，保持连接特性，简单地说，当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭，如果客户端再次访问这个服务器上的网页，会继续使用这一条已经建立的连接

Keep-Alive不会永久保持连接，它有一个保持时间，可以在不同的服务器软件（如Apache）中设定这个时间

基本认证

什么是HTTP基本认证

桌面应用程序也通过HTTP协议跟Web服务器交互，桌面应用程序一般不会使用cookie, 而是把 "用户名+冒号+密码"用BASE64编码的字符串放在http request 中的headerAuthorization中发送给服务端，这种方式叫HTTP基本认证(BasicAuthentication)

HTTP基本认证的过程

第一步: 客户端发送http request 给服务器，

第二步: 因为request中没有包含Authorizationheader, 服务器会返回一个401 Unauthozied 给客户端，并且在Response 的 header"WWW-Authenticate" 中添加信息。

第三步：客户端把用户名和密码用BASE64编码后，放在Authorization header中发送给服务器，认证成功。

第四步：服务器将Authorizationheader中的用户名密码取出，进行验证，如果验证通过，将根据请求，发送资源给客户端

HTTP基本认证的优点

http协议是无状态的，同一个客户端对服务器的每个请求都要求认证

HTTP基本认证和HTTPS

把 "用户名+冒号+密码"用BASE64编码后的string虽然用肉眼看不出来，但用程序很容易解密，上图可以看到Fiddler就直接给解密了。所以这样的http request 在网络上，如果用HTTP传输是很不安全的。一般都是会用HTTPS传输, HTTPS是加密的, 所以比较安全.

HTTP OAuth认证

OAuth 对于Http来说，就是放在Authorizationheader中的不是用户名密码，而是一个token.

微软的Skydrive 就是使用这样的方式，如下图

其他认证

除了基本认证(BasicAuthentication), 还有摘要认证 digestauthentication, WSSE(WS-Security)认证

客户端的使用

压缩

（开头介绍 foxfire中的fiddle插件的用法）

HTTP压缩，在HTTP协议中，其实是内容编码的一种。

在http协议中，可以对内容（也就是body部分）进行编码，可以采用gzip这样的编码。从而达到压缩的目的。也可以使用其他的编码把内容搅乱或加密，以此来防止未授权的第三方看到文档的内容。

所以我们说HTTP压缩，其实就是HTTP内容编码的一种。所以大家不要把HTTP压缩和HTTP内容编码两个概念混淆了。

HTTP压缩的过程

1. 浏览器发送Http request 给Web服务器, request 中有Accept-Encoding:gzip, deflate。 (告诉服务器，浏览器支持gzip压缩)

2. Web服务器接到request后，生成原始的Response, 其中有原始的Content-Type和Content-Length。

3. Web服务器通过Gzip，来对Response进行编码，编码后header中有Content-Type和Content-Length(压缩后的大小)，并且增加了Content-Encoding:gzip. 然后把Response发送给浏览器。

4. 浏览器接到Response后，根据Content-Encoding:gzip来对Response 进行解码。获取到原始response后，然后显示出网页。

内容编码类型

HTTP定义了一些标准的内容编码类型，并允许用扩展的形式添加更多的编码。

Gzip的缺点

JPEG这类文件用gzip压缩的不够好。

Gzip是如何压缩的

简单来说， Gzip压缩是在一个文本文件中找出类似的字符串，并临时替换他们，使整个文件变小。这种形式的压缩对Web来说非常适合，因为HTML和CSS文件通常包含大量的重复的字符串，例如空格，标签。

HTTP Response能压缩，HTTP Request也是可以压缩的

缓存

缓存的概念

缓存这个东西真的是无处不在，有浏览器端的缓存，有服务器端的缓存，有代理服务器的缓存，有ASP.NET页面缓存，对象缓存。数据库也有缓存，等等。

http中具有缓存功能的是浏览器缓存，以及缓存代理服务器。

http缓存的是指:当Web请求抵达缓存时，如果本地有“已缓存的”副本，就可以从本地存储设备而不是从原始服务器中提取这个文档。

缓存的好处

缓存的好处是显而易见的，好处有，

1. 减少了冗余的数据传输，节省了网费。

2. 减少了服务器的负担，大大提高了网站的性能

3. 加快了客户端加载网页的速度

直接使用缓存，不去服务器验证

CTRL+F5强制刷新浏览器，或者设置IE。可以让浏览器不使用缓存。

1. 浏览器发送Http request, 给Web 服务器， header中带有Cache-Control:no-cache. 明确告诉Web服务器，客户端不使用缓存。

2. Web服务器将把最新的文档发送给浏览器客户端.

如何设置IE不使用缓存

打开IE。点击工具栏上的，工具->Internet选项->常规->浏览历史记录设置. 选择“从不”。然后保存。

然后点击“删除” 把Internet临时文件都删掉（IE缓存的文件就是Internet临时文件）

代理

Web代理（proxy）服务器是网络的中间实体。代理位于Web客户端和Web服务器之间，扮演“中间人”的角色。

HTTP的代理服务器即是Web服务器又是Web客户端。

Fiddler就是个典型的代理

Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1, 端口:8888. 当Fiddler退出的时候它会自动注销代理，这样就不会影响别的程序。

代理的作用一，翻墙

代理的作用二，匿名访问

经常听新闻，说”某某某“在网络上发布帖子，被跨省追缉了。假如他使用匿名的代理服务器，就不容易暴露自己的身份了。

http代理服务器的匿名性是指： HTTP代理服务器通过删除HTTP报文中的身份特性（比如客户端的IP地址，或cookie,或URI的会话ID），从而对远端服务器隐藏原始用户的IP地址以及其他细节。同时HTTP代理服务器上也不会记录原始用户访问记录的log(否则也会被查到)。

代理的作用三，通过代理上网

比如局域网不能上网，只能通过局域网内的一台代理服务器上网。

代理的作用四，通过代理缓存，加快上网速度

大部分代理服务器都具有缓存的功能，就好像一个大的cache，它有很大的存储空间，它不断将新取得数据存储到它本地的存储器上，如果浏览器所请求的数据在它本机的存储器上已经存在而且是最新的，那么它就不重新从Web服务器取数据，而直接将存储器上的数据传给用户的浏览器，这样就能显著提高浏览速度。

代理的作用五：儿童过滤器

IE代理设置：使用自动配置脚本（PAC）

IE代理设置：自动探测设置（WPAD）

代理认证，和407状态码

使用代理服务器的安全问题

代理服务器和抓包工具（比如Fiddler）都能看到http request中的数据。如果我们发送的request中有敏感数据，比如用户名，密码，信用卡号码。这些信息都会被代理服务器看到。所以非常危险。所以我们一般都是用HTTPS来加密Http request. 这样代理服务器就看不到里面的数据了。

如何搭建代理服务器

可以使用CCproxy, 和Squid 来搭建代理服

状态码详解

什么是HTTP状态码

HTTP状态码的作用是：Web服务器用来告诉客户端，发生了什么事。

状态码位于HTTP Response 的第一行中，会返回一个”三位数字的状态码“和一个“状态消息”。 ”三位数字的状态码“便于程序进行处理， “状态消息”更便于人理解。

如下图，当客户端请求一个不存在的URL的时候， Web服务器会返回 “HTTP/1.1 404 Not Found” 告诉浏览器客户端。服务器无法找到所请求的URL。

状态码分类

HTTP状态码被分为五大类，目前我们使用的HTTP协议版本是1.1，支持以下的状态码。随着协议的发展，HTTP规范中会定义更多的状态码。

小技巧：假如你看到一个状态码518，你并不知道具体518是什么意思。这时候你只要知道518是属于（5XX，服务器错误就可以了）

常见的状态码

Cookie

Cookie 概述

Cookie是什么？ Cookie 是一小段文本信息，伴随着用户请求和页面在 Web 服务器和浏览器之间传递。Cookie 包含每次用户访问站点时 Web 应用程序都可以读取的信息。

为什么需要Cookie？因为HTTP协议是无状态的，对于一个浏览器发出的多次请求，WEB服务器无法区分是不是来源于同一个浏览器。所以，需要额外的数据用于维护会话。 Cookie 正是这样的一段随HTTP请求一起被传递的额外数据。

Cookie能做什么？ Cookie只是一段文本，所以它只能保存字符串。而且浏览器对它有大小限制以及它会随着每次请求被发送到服务器，所以应该保证它不要太大。 Cookie的内容也是明文保存的，有些浏览器提供界面修改，所以，不适合保存重要的或者涉及隐私的内容。

Cookie 的限制。大多数浏览器支持最大为 4096 字节的 Cookie。由于这限制了 Cookie 的大小，最好用 Cookie 来存储少量数据，或者存储用户 ID 之类的标识符。用户 ID 随后便可用于标识用户，以及从数据库或其他数据源中读取用户信息。浏览器还限制站点可以在用户计算机上存储的 Cookie 的数量。大多数浏览器只允许每个站点存储 20 个 Cookie；如果试图存储更多 Cookie，则最旧的 Cookie 便会被丢弃。有些浏览器还会对它们将接受的来自所有站点的 Cookie 总数作出绝对限制，通常为 300个。

通过前面的内容，我们了解到Cookie是用于维持服务端会话状态的，通常由服务端写入，在后续请求中，供服务端读取。下面本文将按这个过程看看Cookie是如何从服务端写入，最后如何传到服务端以及如何读取的。

【http://www.cnblogs.com/fish-li/archive/2011/07/03/2096903.html】

Cookie的分类

可以大致把Cookie分为2类：回话cookie和持久cookie

会话cookie: 是一种临时的cookie，它记录了用户访问站点时的设置和偏好，关闭浏览器，会话cookie就被删除了

持久cookie: 存储在硬盘上，（不管浏览器退出，或者电脑重启，持久cookie都存在），持久cookie有过期时间

Cookie存在哪里

cookie是存在硬盘上， IE存cookie的地方和Firefox存cookie的地方不一样。不同的操作系统也可能存cookie的地方不一样。

不同的浏览器会在各自的独立空间存放Cookie,互不干涉

以我的windows7， IE8为例， cookie存在这： C:\Users\xiaoj\AppData\Local\Microsoft\Windows\Temporary InternetFiles

注意：缓存文件和cookie文件，是存在一起的, 都在这个目录下。

你也可以这样找, 打开IE，点击Tools->InternetOptions->General Tab下的->Browsinghistory下的Setting按钮，弹出的对话框中点击View files.

使用和禁用Cookie

Fiddler查看HTTP中的Cookie

浏览器把cookie通过HTTP Request 中的“Cookie:header”发送给Web服务器

Web服务器通过HTTP Response中的"Set-Cookie:header"把cookie发送给浏览器

使用Fiddler可以清楚地看到cookie在HTTP中传递。 Fiddler工具中可以清晰的看到HttpRequest 中的Cookie，和Http Response中的cookie

实例：启动Fiddler, 启动浏览器访问一些购物网站，就可以看到。

网站自动登陆的原理

我们以”博客园自动登陆“的例子，来说明cookie是如何传递的。

大家知道博客园是可以自动登陆的。如下图，这个是什么原理呢?

假如我已经在登陆页面输入了用户名，密码，选择了保存密码，登陆。

（这时候，其实在你的机器上保存好了登陆的cookie,不信你可以按照上节介绍方法去你的电脑上找下博客园的cookie）

当我下次访问博客园流程如下。

1. 用户打开IE浏览器，在地址栏上输入www.cnblogs.com.

2. IE首先会在硬盘中查找关于cnblogs.com的cookie. 然后把cookie放到HTTPRequest中，再把Request发给Web服务器。

3. Web服务器返回博客园首页（你会看到你已经登陆了）。

截获Cookie，冒充别人身份

通过上面这个例子，可以看到cookie是很重要的，识别是否是登陆用户，就是通过cookie。假如截获了别人的cookie是否可以冒充他人的身份登陆呢？当然可以，这就是一种黑客技术叫Cookie欺骗。

利用Cookie 欺骗，不需要知道用户名密码。就可以直接登录，使用别人的账户做坏事。

我知道有两种方法可以截获他人的cookie，

1. 通过XSS脚步攻击，获取他人的cookie. 具体原理可以看 [Web安全性测试之XSS]

2. 想办法获取别人电脑上保存的cookie文件（这个比较难）

拿到cookie后，就可以冒充别人的身份了。这个过程我就不演示了。

Cookie和文件缓存的区别

很多人会把cookie和文件缓存弄混淆，这两个完全是不一样的东西。唯一的相同之处可能是它们俩都存在硬盘上，而且是存在同一个文件夹下。

关于HTTP缓存请看这【HTTP协议之缓存】

我们在IE中可以选择分别删除Cookie和缓存文件

Cookie 泄露隐私

2013年央视的315晚会上，曝光了很多不法公司利用Cookie跟踪并采集用户的个人信息，并转卖给网络广告商，形成了一条窃取用户信息的灰色产业链。从而实现广告准确投放。严重干扰了用户的正常网络应用，侵害了个人的隐私和利益。

我经常就在门户网站上发现广告位上显示的是我在电商网站上流量过的商品。这就是我的cookie被泄露了。

目前在欧洲，已经对Cookie立法，如果网站需要保存用户的cookie,必须弹出一个对话框，要用户确认后才能保存Cookie.

P3P协议

从上面看来， Cookie 是一个比较容易泄露用户隐私和危险的东西。有没有办法保护个人用户隐私呢？那就是P3P协议

P3P是一种被称为个人隐私安全平台项目（the Platform forPrivacy Preferences）的标准，能够保护在线隐私权，使Internet冲浪者可以选择在浏览网页时，是否被第三方收集并利用自己的个人信息。如果一个站点不遵守P3P标准的话，那么有关它的Cookies将被自动拒绝，并且P3P还能够自动识破多种Cookies的嵌入方式。p3p是由全球资讯联盟网所开发的。