第2章 爬虫基础
2.1 HTTP基本原理
2.1.1 URI和URL
URI: Uniform Resource Identifier 统一资源标识符
URL:Universal Resource Locator 统一资源定位符
2.1.2 超文本
hypertext
2.1.3 http和https
https:Hyper Text Transfer Protocol over Secure Socket Layer
https是以安全为目标的HTTP通道,简单地讲师HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS
2.1.4 HTTP请求过程
2.1.5 请求
- 请求方法:get和post
- get请求中的参数包含在URL中,数据可以在URL中看到;而post请求的URL不会包含这些数据,数据通过表单形式传输的,会包含在请求体中
- get请求提交的数据最多只有1024字节,post无限制
- 请求的网址
即URL - 请求头
- 请求体
2.1.6 响应
- 相应状态码
- 响应头
- 响应体