《python3网络爬虫开发实战》学习笔记(一)-第1章 爬虫基础

第1章 爬虫基础思维导图

1.1 HTTP基本原理

1.1.1 URI和URL

(1)什么是URI和URL

通俗来讲,就是通过一个链接,便可以从互联网中找到某个资源,这个链接即是URI/URL。一般来讲,URI就是URL。

URI:全称Uniform Resource Identifier,即统一资源标志符;

URL:Uniform Resource Locator,即统一资源定位符。

(2)URL基本组成格式

scheme://[username:password@]hostname[:port][/path][;parameters][?query][#fragment]

注释:格式中中括号包括的内容代表非必要部分。

scheme:协议。常用的协议有http、https、Ftp等,另外schcme也被常称作protocol。

usemame、password:用户名和密码。

hostname:主机地址。可以是域名或IP地址。

port:端口。服务器设定的端口。http协议的默认端口是80,https协议的默认端口是443。

path:路径。用来指定访问某个资源时的附加信息。

query:查询。用来查询某些资源。

fragment:片段。对资源描述的部分补充。

1.1.2 HTTP和HTTPS

(1)基本概念

HTTP的全称是Hypenext TransIer Protocol,中文名为超文本传输协议,作用是把超文本数据从
网络传输到本地测览器,能够保证高效而准确地传输超文本文档。

HTTPS的全称是Hypenext Transfer Protocolover Secure Socket Layer,简称HTTPS,是以安全为目标的HTTP通 道,换句话说,就是HTTP的安全版,即在HTTP下加人SSL层。

(2)SSL的主要作用

一是建立一个信息安全通道’保证数据传输的安全性。

二是确认网站的真实性。

(3)补充内容

HTTP和HTTPS协议都属于计算机网络中的应用层协议,其下层是基于TCP协议实现的,TCP协议属于计算机网络中的传输层协议,包括建立连接时的三次握手和断开时的四次挥手等过程。

1.1.3 HTTP请求过程

首先,浏览器向所在服务器发送一个请求;

接着,网站服务器接收到请求后进行解析和处理;

最后,返回对应响应,并传回浏览器。

1.1.4 请求

请求,英文为Request,由客户端发往服务器,分为四部分内容:请求方法(Requcst Method)、 请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)。

(1)请求方法(Requcst Method)

1)基本概念:

请求方法,用于标识请求客户端请求服务端的方式,常见的请求方法有两种:GET和POST。

2)GET和POST请求方法的区别:

区别1:数据包含与否。GET请求中的参数包含在URL里面,数据可以在URL中看到;而POST请求的URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。

区别2:提交数据的多少。GET请求提交的数据最多只有l024字节。POST方式则没有限制。

(3)请求方法种类

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值