第1章 爬虫基础思维导图
1.1 HTTP基本原理
1.1.1 URI和URL
(1)什么是URI和URL
通俗来讲,就是通过一个链接,便可以从互联网中找到某个资源,这个链接即是URI/URL。一般来讲,URI就是URL。
URI:全称Uniform Resource Identifier,即统一资源标志符;
URL:Uniform Resource Locator,即统一资源定位符。
(2)URL基本组成格式
scheme://[username:password@]hostname[:port][/path][;parameters][?query][#fragment]
注释:格式中中括号包括的内容代表非必要部分。
scheme:协议。常用的协议有http、https、Ftp等,另外schcme也被常称作protocol。
usemame、password:用户名和密码。
hostname:主机地址。可以是域名或IP地址。
port:端口。服务器设定的端口。http协议的默认端口是80,https协议的默认端口是443。
path:路径。用来指定访问某个资源时的附加信息。
query:查询。用来查询某些资源。
fragment:片段。对资源描述的部分补充。
1.1.2 HTTP和HTTPS
(1)基本概念
HTTP的全称是Hypenext TransIer Protocol,中文名为超文本传输协议,作用是把超文本数据从
网络传输到本地测览器,能够保证高效而准确地传输超文本文档。
HTTPS的全称是Hypenext Transfer Protocolover Secure Socket Layer,简称HTTPS,是以安全为目标的HTTP通 道,换句话说,就是HTTP的安全版,即在HTTP下加人SSL层。
(2)SSL的主要作用
一是建立一个信息安全通道’保证数据传输的安全性。
二是确认网站的真实性。
(3)补充内容
HTTP和HTTPS协议都属于计算机网络中的应用层协议,其下层是基于TCP协议实现的,TCP协议属于计算机网络中的传输层协议,包括建立连接时的三次握手和断开时的四次挥手等过程。
1.1.3 HTTP请求过程
首先,浏览器向所在服务器发送一个请求;
接着,网站服务器接收到请求后进行解析和处理;
最后,返回对应响应,并传回浏览器。
1.1.4 请求
请求,英文为Request,由客户端发往服务器,分为四部分内容:请求方法(Requcst Method)、 请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)。
(1)请求方法(Requcst Method)
1)基本概念:
请求方法,用于标识请求客户端请求服务端的方式,常见的请求方法有两种:GET和POST。
2)GET和POST请求方法的区别:
区别1:数据包含与否。即GET请求中的参数包含在URL里面,数据可以在URL中看到;而POST请求的URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。
区别2:提交数据的多少。GET请求提交的数据最多只有l024字节。POST方式则没有限制。
(3)请求方法种类