一、HTTP协议
1、http协议特点
1.支持客户/服务器模式。
2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。
由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。
3.灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
4.无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
5.无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
2、http协议的几个重要概念:连接、消息、请求、响应、资源、用户代理、缓存、服务器等
1.连接(Connection):一个传输层的实际环流,它是建立在两个相互通讯的应用程序之间。
2.消息(Message):HTTP通讯的基本单位,包括一个结构化的八元组序列并通过连接传输。
3.请求(Request):一个从客户端到服务器的请求信息包括应用于资源的方法、资源的标识符和协议的版本号
4.响应(Response):一个从服务器返回的信息包括HTTP协议的版本号、请求的状态(例如"成功"或"没找到")和文档的MIME类型。
5.资源(Resource):由URI标识的网络数据对象或服务。
6.实体(Entity):数据资源或来自服务资源的回映的一种特殊表示方法,它可能被包围在一个请求或响应信息中。一个实体包括实体头信息和实体的本身内容。
8.用户代理(User agent):初始化一个请求的客户机。它们是浏览器、编辑器或其它用户工具。
10.源服务器(Origin server):是一个给定资源可以在其上驻留或被创建的服务器。
11.代理(Proxy):一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其它客户机建立请求。请求是通过可能的翻译在内部或经过传递到其它的服务器中。一个代理在发送请求信息之前,必须解释并且如果可能重写它。
代理经常作为通过防火墙的客户机端的门户,代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。
12.网关(Gateway):一个作为其它服务器中间媒介的服务器。与代理不同的是,网关接受请求就好象对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。
网关经常作为通过防火墙的服务器端的门户,网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。
13.通道(Tunnel):是作为两个连接中继的中介程序。一旦激活,通道便被认为不属于HTTP通讯,尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时,通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通讯时通道被经常使 用。
14.缓存(Cache):反应信息的局域存储。
3、http协议的运作方式
4、http协议请求头格式分析
http协议的请求头分为10个部分。
1.From:
以internet邮件的形式,这一字段给出了正在请求的用户的名字。这一字段也许被用来登陆和一种存取保护的不安全形式。这一字段的解释是代表被给定用户的要求正在被执行,这个用户接受被执行方法的回应。
这一字段里的因特网邮件地址并非一定要对发出请求的主机回应.例如,当一个请求正通过一个网关时,开始的发布者的地址应该被使用。
假如能的话,邮件地址应该时一个有效的邮件地址而不管它实际上是否是一个internet邮件地址。
2.Accept:
这一字段包含了一个分隔的请求方案列表,它将在这个请求的回应中被接受。这一字段可能会根据RCFC822被包装成几行,并且这个字段不仅仅一次的发生也是被接受的,好像所有的入口已经在一个域种了。列表中每个入口的模式如下:
<field> = Accept: <entry> *[ , <entry> ]
<entry> = <content type> *[ ; <param> ]
<param> = <attr> = <float>
<attr> = q / mxs / mxb
<float> = <ANSI-C floating point text represntation>
注意在上述语法中分号的优先级高于逗号,这是为了符合多用途的忘记邮件扩充协议。
记入没有Accept字段出现,那么假定无格式正文和html正文被接受。
Example
Accept: text/plain, text/html
Accept: text/x-dvi; q=.8; mxb=100000; mxt=5.0, text/x-c
为了节省时间,并且也允许客户接受他们可能不会意识到的content type一个星号也许被使用在下面的地方,either the second half of the content-type value, or both halves。这仅仅被应用于Accept,而且不是对于content-type field of course的。
Example
Accept: *.*, q=0.1
Accept: audio/*, q=0.2
Accept: audio/basic q=1
上面的例子可以这样解释:假如你有基本音频,那么传送它,否则传送给我一些其他的声音,或者不能那样作,那么仅仅给我你所得到的。
Type parameters
在(content type)中参数对于描述决议,颜色深度等等是特别重要的。他们将允许一个客户来在Accept字段中指定它的设备的决议。这也许允许server在传输 时通过减少一个图片的resultion来大大的节约。并且使一个更适合的用户时间的黑白图象被选中而不是给客户一个彩色图片来转换成单色的。
These parameters are to be specified when types are registered.. @@ TBS.Sugestions include the following. Please feed back any references to existing improved abbreviations for these:
下面这些参数是当类型被注册时而被具体详细说明的。
Dpi
Dots per inch: pixels per inch [cm?!]
pxmax
Maximum width in pixels (image or video)
pymax
Maximum height in pixels
bits
Bits per sample (sound) or pixels (graphics)
mchrome
Grayscale or black and white (no value)
sps
Samples (sound) or frames (video) per second
Length
Total size of object in bytes [bits?]
3.Accept-Encoding:
和Accept一样,但是仅列出了在响应中是可接受的Content-Encoding types
<field> = Accept-Encoding: <entry> *[ , <entry> ]
<entry> = <content transfer encoding> *[ , <param> ]
Example:
Accept-Encoding: x-compress; x-zip
4。Accept-Language:
和Accept一样但是列出了在响应中更好的Language values。在一个未详细说明的语言中一个响应不是非法的。
5.User-Agent:
假如存在的话,这一行给出了被原始用户使用的软件程序。这是为了统计和protocol violations的追踪而给出的。第一个白色空格划定了单词必须是软件产品名有一个可选的斜线和版本说明。其他形成了用户代理的部分产品也许被作为分开的单词被安排。
<field> = User-Agent: <product>+
<product> = <word> [/<version>]
<version> = <word>
Example:
User-Agent: LII-Cello/1.0 libwww/2.5
6.Referer:
这个可选的header field允许客户详细说明,为了server的好处,文档的地址或者文档中的元素,URI通过文档的地址或者文档中的元素在请求中被获得。
这允许一个服务器来产生向后对文档的链接,它允许坏链接为了维护而被跟踪。
假如一个部分的URI被给出那么它应该被解析到相应的请求对象的URI。
Example:
Referer: http://www.w3.org/hypertext/DataSources/Overview.html
7.Authorization:
假如这一行存在的话它包含了授权信息。格式也是被指定的。这一字段的格式是在可扩展的形式。第一个单词是一个使用中的被授权的系统的规范。
Basic
Specification for current one implemented by AL Sep 1993.
PGP/PEM Encryption(pgp/增强的加密电子邮件 密码术)
People at NCSA are designing a PGP/PEM based protection system.
User/Password scheme
Authorization: user fred:mypassword
设计名是"user"。第二个单词是一个用户名,有一个被冒号分开的可选的密码,就好像在ftp的URL语法一样。没有密码的话这提供了一个非常低级的安全保证,有了密码,它提供了一个低级安全保证作为未定义的FTP,Telnet等等。
Koreros
Authorization: kerberos kerberos authentications parameters
Kerberos的确认参数格式被具体指定。
8.ChargeTo:
假如这一行存在地话,它包括了被请求的方法的程序的帐户信息。格式是TBS
(To Be Specified)这个字段的格式必须是在扩展模式的。第一个单词以一个namespaces的说明开始。这和扩展URLㄒ搴芟瘛5鼻懊挥衝amespaces被定义。Namespaces见被随着注册确认而注册。
这行的其余部分的格式是一个系统有关的函数但是它被推荐这包含了一个被用户确认得本次事务的最大花费和一个花费单元。
If-Modified-Since: date
这个请求头被随着get方法使用使之有条件。假如请求文档直到被定义还没改变得花那么文档不会被发送,但是会有一个Not Modified 304 回应。
这个字段的格式和日期的一样。
9.Pragma:
语法和其它的http中的多值字段一样,就像Accept字段,名以上是一个冒号分开的入口列表对他来说可选的参数是被汉欧挚摹?
Pragma 指示应该被服务器理解,对它来说是相对的,例如,一个代理服务器当前仅仅一个pragma被定义:no-cache
当当前的代理不应该从缓存返回一个文档时,即使它还没有被到期,但是它总应该从实际存在地服务器请求文档。
Pragma应该被通过代理实现,甚至他们也许对代理本身有意义。当请求不得不通过许多代理时,这在事件中是必须的,而且pragma应该队所有的他们有效。
5、服务器返回的各种状态码
① 客户方错误
100 继续
101 交换协议
② 成功
200 OK
201 已创建
202 接收
203 非认证信息
204 无内容
205 重置内容
206 部分内容
③ 重定向
300 多路选择
301 永久转移
302 暂时转移
303 参见其它
304 未修改(Not Modified)
305 使用代理
④ 客户方错误
400 错误请求(Bad Request)
401 未认证
402 需要付费
403 禁止(Forbidden)
404 未找到(Not Found)
405 方法不允许
406 不接受
407 需要代理认证
408 请求超时
409 冲突
410 失败
411 需要长度
412 条件失败
413 请求实体太大
414 请求URI太长
415 不支持媒体类型
⑤ 服务器错误
500 服务器内部错误
501 未实现(Not Implemented)
502 网关失败
504 网关超时
505 HTTP版本不支持