文章目录
前言
今日份关键词:URI、请求、响应
一、URI和URL
URI的全称为Uniform Resource Identifier,即统一资源标志符
URL的全称为Universal Resource Locator,即统一资源定位符
举例来说,https://baidu.com是百度的网站图标链接,它是一个URI,也是一个URL。
即有这样的一个图标资源,我们用URL/URI来唯一指定了它的访问方式,这其中包括了访问协议https、访问路径(/即根目录)和资源名称。通过这样一个链接,我们便可以从互联网上找到这个资源,这就是URL/URI。
我们可以说,URL+URN=URI。URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫URN,它的全称为Universal Resource Name,即统一资源名称。URN只命名资源而不指定如何定位资源,比如urn:isbn:xxxxxxxxxx指定了一本书的ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书。
但是在目前的互联网中,URN用得非常少,所以几乎所有的URI都是URL,一般的网页链接我们既可以称为URL,也可以称为URI。
二、请求(Request)
请求的内容: 请求,由客户端向服务端发出,可以分为4部分内容:a、请求方法(Request Method),b、请求的网址(Request URL),c、请求头(Request Header)、d、请求体(Request Body)。
1、请求方法(Request Method)
a、常见的请求方法:GET和 POST
- GET请求,请求的参数会直接包含到URL里
- POST请求,其数据通常以表单的形式传输,而不会体现在URL中。
b、GET和 POST请求方法有如下区别:
- GET请求中的参数包含到URL里;而POST请求中的参数在请求体,不包含到URL里。
- GET请求提交的数据最多只有1024字节,而POST方式没有限制。
一般来说,登录时需要提交用户名和密码,其中包含了敏感信息,使用GET方式请求的话,密码就会暴露在URL里面,造成密码泄露,所以这里最好以POST方式发送。
上传文件时,由于文件内容比较大,也会选用POST方式。
c、请求方法和描述
方法 | 描述 |
---|---|
GET | 请求页面,并返回页面内容 |
HEAD | 类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头 |
POST | 大多用于提交表单或上传文件,数据包含在请求体中 |
PUT | 从客户端向服务器传送的数据取代指定文档中的内容 |
DELETE | 请求服务器删除指定的页面 |
CONNECT | 把服务器当作跳板,让服务器代替客户端访问其他网页 |
OPTIONS | 允许客户端查看服务器的性能 |
TRACE | 回显服务器收到的请求,主要用于测试或诊断 |
2、请求的网址(Request URL)
- 请求的网址,即统一资源定位符URL,它可以唯一确定我们想请求的资源
3、请求头(Request Header)
- Accept: 请求报头域,用于指定客户端可接受哪些类型的信息
- Accept-Language: 指定客户端可接受的语言类型
Accept-Encoding: 指定客户端可接受的内容编号 - Host: 用于指定请求资源的主机IP和端口号,其内容为请求URI的原始服务器或网关的位置。从HTTP 1.1版本开始,请求必须包含此内容。
- Cookie: 也常用复数形式Cookies,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能时维持当前访问会话。例如,我们输入用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就是Cookies的功劳。Cookies里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。
- Referer: 此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如作来源统计、防盗链处理等。
- User-Agent: 简称UA,它是一个特色的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。
- Content-Type: 也叫互联网媒体类型(Internet Media Type)或者MIME类型,在HTTP协议消息头中,它用来表示具体请求中的媒体类型信息
请求头是请求的重要组成部分,在写爬虫时,大部分情况下都是需要设定请求头。
4、请求体(Request Body)
- 请求体一般承载的内容是POST请求中的表单数据,而对于GET请求,请求体则为空。如下便是请求页面:
5、Content-Type和POST提交数据方式的关系
Content-Type | 提交数据的方式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSON数据 |
text/xml | XML数据 |
在爬虫中,如果要构造POST请求,需要使用正确的Content-Type,并了解各种请求库的各个参数设置时使用的是哪种Content-Type,不然可能会导致POST提交后无法正常响应。 |
三、响应(Response)
响应的内容: 响应,由服务端返回给客户端。可以分为三部分:a、响应状态码(Response Status Code),b、响应头(Response Headers),c、响应体(Response Body)
1、响应状态码(Response Status Code)
响应状态码表示服务器的响应状态。
- 如200代表服务器正常响应;
- 404代表页面未找到;
- 500代表服务器内部发生错误。
在爬虫中,我们可以根据状态码来判断服务器响应状态,如状态码为200,则证明成功返回数据,再进行进一步的处理,否则直接忽略。如下列出了常见的错误代码及错误原因。
状态码 | 含义 | 解释 |
---|---|---|
100 | 继续 | 请求者应当继续提出请求 服务器已收到请求的一部分,正在等待其余部分 |
101 | 切换协议 | 请求者已要求服务器切换协议,服务器已确认并准备切换 |
200 | 成功 | 服务然已成功处理了请求 |
201 | 已创建 | 请求成功并且服务器创建了新的资源 |
202 | 已接收 | 服务然已接受请求,但尚未处理 |
203 | 非授权信息 | 服务器已成功处理了请求,但返回的信息可能来自另 一个源 |
204 | 无内容 | 服务器成功处理了请求 但没有返回任何内容 |
205 | 重置内容 | 服务器成功处理了请求,内容被重置 |
206 | 部分内容 | 服务器成功处理了部分请求 |
300 | 多种选择 | 针对请求,服务器可执行多种操作 |
301 | 永久移动 | 请求的网页已永久移动到新位置,即永久重定向 |
302 | 临时移动 | 请求的网页暂时跳转到其他页面,即暂时重定向 |
303 | 查看其他位置 | 如果原来的请求是 POST 定向目标文档应该通过 GET 提取 |
304 | 未修改 | 此次请求返回的网页未修改 继续使用上次的资源 |
307 | 临时重定向 | 请求的资源临时从其他位置响应 |
400 | 错误请求 | 服务器无法解析该请求 |
401 | 未授权 | 请求没有进行身份验证或验证未通过 |
403 | 禁止访问 | 服务将拒绝此请求 |
404 | 未找到 | 服务器找不到请求的网页 |
405 | 方法禁用 | 服务器禁用了请求中指定的方法 |
406 | 不接受 | 无法使用请求的内容响应请求的网页 |
407 | 需要代理授权 | 请求者需要使用代理授权 |
408 | 请求超时 | 服务器请求超时 |
409 | 冲突 | 服务器在完成请求时发生冲突 |
410 | 已删除 | 请求的资源已永久删除 |
411 | 需要有效长度 | 服务器不接受不含有效内容长度标头字段的请求 |
412 | 未满足前提条件 | 服务器未满足请求者在请求中设置的其中一个前提条件 |
413 | 求实体过大 | 请求实体过大,超出服务器的处理能力 |
414 | 请求 URI 过长 | 请求网址过长,服务器无法处理 |
415 | 不支持类型 | 请求格式不被请求页面支持 |
416 | 请求范围不符 | 页面无法提供请求的范围 |
417 | 未满足期望值 | 服务器未满足期望请求标头字段的要求 |
500 | 服务器内部错误 | 服务器遇到错误,无法完成请求 |
501 | 未实现 | 服务器不具备完成请求的功能 |
502 | 错误网关 | 服务器作为网关或代理 从上游服务然收到无效响应 |
503 | 服务不可用 | 服务器目前无法使用 |
504 | 网关超时 | 服务器作为网关或代理,但是没有及时从上游服务收到请求 |
505 | HTTP 版本不支持 | 服务器不支持请求中所用的 HTTP 协议版本 |
通过观察,我们可以总结出以下规律: 5开头一般是服务器问题相关的;4开头一般是请求有错误的;3开头一般是需要优化的内容;2开头一般是请求比较成功。
2、响应头(Response Headers)
响应头包含了服务器对请求的应答信息:
- Data: 标识响应产生的时间。
- Last-Modified: 指定资源的最后修改时间。
- Content-Encoding: 指定响应内容的编码。
- Server: 包含服务器的信息、比如名称、版本号等
- Content-Type: 文档类型,指定返回的数据类型是什么,如text/html代表返回HTML文档,application/x-javascript则代表返回Javascript文件,image/jpeg则代表返回图片。
- Set-Cookie: 设置Cookies。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求。
- Expires: 指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。
3、响应体(Response Body)
最重要的当属响应体的内容,响应的正文数据都在响应体中,比如请求网页时,它的响应体就是网页的HTML代码;请求一张图片时,它的响应体就是图片的二进制数据。我们做爬虫请求网页后,要解析的内容就是响应体。在浏览器开发者工具中点击Preview,就可以看到网页的源代码,也就是响应体的内容,它是解析的目标。在做爬虫时,我们主要通过响应体得到网页的源代码、JSON数据等,然后从中做相应内容的提取。
总结
以上就是今天要总结的内容,本文仅仅围绕Python爬虫简单介绍了与URL、请求和响应相关的内容。夜已深,睡觉zzzZZZZ