1.爬虫的概念
- 模拟浏览器
- 发送请求
- 获取响应
2.爬虫作用
- 数据采集
- 软件测试
- 抢票
- 网站投票
- 网络安全
3.爬虫的分类
- 数量
- 是否获取数据
- url与数据关系
4.爬虫流程
- url
- 发送请求,获取响应
- 解析
5.http复习
01.http以及https的概念和区别
Https和http更让安全,但性能更低
02.常见的请求头与响应头
请求头
host 域名
Connection 长连接
Upgrade-Insecure-Requests 升级为https
***User-Agent 用户代理 提供系统信息和浏览器信息
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36
***Referer 页面跳转处 用于防盗链 图片 视频
***Cookie 状态保持
响应头
set-Cookie
03.状态码
所有的状态码都不可信,一切以是都能抓包得到的数据
network抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准
04.浏览器发送请求过程
- 浏览器:发送所有请求进行渲染
- 爬虫:只发送指定请求,不会渲染
抓包过程:
- 骨骼文件: html静态页面
- 肌肉文件:js ajax
- 皮肤:css font 图片等