python爬虫入门之HTTP协议

一:什么是HTTP协议

        1.基本信息

                中文名:超文本传送协议      外文名:Hypertext Transfer Protocol

        2.工作原理

                超文本传输协议,是我们浏览网页、看在线视频、听在线音乐等必须遵循的规则。正是

                在这样的规则下,浏览器(万维网客户)才能向万维网服务器发送万维网文档请求,然后服

                务器会将请求的文档发送回浏览器。在浏览器和服务器之间的请求和响应的交互,必须

                按照规定的格式和规则,这些格式和规则就构成了超文本传输协议。

                

        3.HTTP的请求和响应

                

                (1)客户端请求方式

                      HTTP/1.1协议中共定义了八种方法(有时也叫"动作")来表明Request-URI指定的资源的不同操作方式:

                        OPTIONS - 返回服务器针对特定资源所支持的HTTP请求方法。也可以利用向Web

                        服务器发送'*'的请求来测试服务器的功能性。

                        HEAD- 向服务器索要与GET请求相一致的响应,只不过响应体将不会被返回。这

                        一方法可以在不必传输整个响应内容的情况下,就可以获取包含在响应消息头中的

                        元信息。

                        GET - 向特定的资源发出请求。注意:GET方法不应当被用于产生"副作用"的操作

                        中,例如在web app.中。其中一个原因是GET可能会被网络蜘蛛等随意访问。

                        POST - 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包

                        含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。

                        PUT - 向指定资源位置上传其最新内容。

                        DELETE - 请求服务器删除Request-URI所标识的资源。        

TRACEicon-default.png?t=N7T8https://baike.so.com/doc/6146915-6360100.html                        - 回显服务器收到的请求,主要用于测试或诊断。

                        CONNECT - HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。

                        PATCH - 用来将局部修改应用于某一资源,添加于规范RFC5789。

                 (2)如何查看客户端请求方式

                        打开浏览器要爬取的界面

                        点击F12打开开发者工具

                        点击Network

                        刷新

                                                                       

                          代码示例:

                                                (3)响应头第一行

                        响应头第一行也称为状态行,格式如下:

                        HTTP-Version 空格 Status-Code 空格 Reason-Phrase CRLF

                HTTP- Version表示HTTP版本,例如为HTTP/1.1。Status- Code是结果代码,用三个数

               字表示。Reason-Phrase是个简单的文本描述,解释Status-Code的具体原因。Status-

               Code用于机器自动识别,Reason-Phrase用于人工理解。Status-Code的第一个数字代

               表响应类别,可能取5个不同的值。后续两位描述在该类响应下发生的具体状况,具体

               请参见:HTTP状态码 。

                (4)响应状态码

状态码

状态码英文名称

中文描述

100

Continue

继续。客户端应继续其请求

101Switching Protocols切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议

200

OK

请求成功。一般用于GET与POST请求

201

Created

已创建。成功请求并创建了新的资源

202

Accepted

已接受。已经接受请求,但未处理完成

203

Non-Authoritative Information

非授权信息。请求成功。但返回的meta信息不在原始的服务器,而是一个副本

204

No Content

无内容。服务器成功处理,但未返回内容。在未更新网页的情况下,可确保浏览器继续显示当前文档

205

Reset Content

重置内容。服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域

206

Partial Content

部分内容。服务器成功处理了部分GET请求

300

Multiple Choices

多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择

301

Moved Permanently

永久移动。请求的资源已被永久的移动到新URL,返回信息会包括新的URL,浏览器会自动定向到新URL。今后任何新的请求都应使用新的URL代替

302

Found

临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URL

303

See Other

查看其它地址。与301类似。使用GET和POST请求查看

304

Not Modified

未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源

305

Use Proxy

使用代理。所请求的资源必须通过代理访问

306

Unused

已经被废弃的HTTP状态码

307

Temporary Redirect

临时重定向。与302类似。使用GET请求重定向

400

Bad Request

客户端请求的语法错误,服务器无法理解

401

Unauthorized

请求要求用户的身份认证

402

Payment Required

保留,将来使用

403

Forbidden

服务器理解请求客户端的请求,但是拒绝执行此请求

404

Not Found

服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面

405

Method Not Allowed

客户端请求中的方法被禁止

406

Not Acceptable

服务器无法根据客户端请求的内容特性完成请求

407

Proxy Authentication Required

请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权

408

Request Time-out

服务器等待客户端发送的请求时间过长,超时

409

Conflict

服务器完成客户端的PUT请求时可能返回此代码,服务器处理请求时发生了冲突

410

Gone

客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置

411

Length Required

服务器无法处理客户端发送的不带Content-Length的请求信息

412

Precondition Failed

客户端请求信息的先决条件错误

413

Request Entity Too Large

由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息

414

Request-URLToo Large

请求的URL过长(URL通常为网址),服务器无法处理

415

Unsupported Media Type

服务器无法处理请求附带的媒体格式

416

Requested range not satisfiable

客户端请求的范围无效

417

Expectation Failed

服务器无法满足Expect的请求头信息

500

Internal Server Error

服务器内部错误,无法完成请求

501

Not Implemented

服务器不支持请求的功能,无法完成请求

502

Bad Gateway

充当网关或代理的服务器,从远端服务器接收到了一个无效的请求

503

Service Unavailable

由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中

504

Gateway Time-out

充当网关或代理的服务器,未及时从远端服务器获取请求

505

HTTP Version not supported

服务器不支持请求的HTTP协议的版本,无法完成处理

二:HTTP字段解析

        Host :请求的资源在哪个主机的端口上
        Connection:该请求支持长连接(heep_alive)
        Content-Length:正文内容长度
        Content-Type:数据类型
        User-Agent:声明用户的操作系统和浏览器版本信息
        Accent:发起了请求
        Referer:当前页面是从哪个页面跳转过来的
        Accept-Encoding:接受的编码
        Accept-Language:接受的语言类型
        Cookie:用于在客户端存储少量信息,通常用于实现会话(session)功能

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值