http的请求方式
get请求:
- 比较便携:缺点:比较不安全,明文,参数长度限制
post请求
- 比较安全
- 数据整体没有限制
- 可以上传文件
put请求(不完全)
delete(删除一些信息)
head(请求头)
发送⽹络请求(需要带⼀定的数据给服务器不带数据也可以)
-
请求头⾥⾯request header
-
Accept:⽂本的格式Accept-Encoding:编码格式Connection:⻓链接短链接Cookie:验证⽤的Host:域名Referer:标志从哪个⻚⾯跳转过来的User-Agent:浏览器和⽤户的信息
-
-
返回数据:response
爬虫的分类
通⽤爬⾍
- 使⽤搜索引擎:百度⾕歌 360 雅⻁搜狗
- 优势:开放性速度快
- 劣势:⽬标不明确
- 返回内容:基本上%90是⽤户不需要的
- 不清楚⽤户的需求在哪⾥
聚焦爬虫
- ⽬标明确
- 对⽤户的需求⾮常精准
- 返回的内容很固定
增量式:翻⻚:从第⼀⻚请求到最后⼀⻚
Deep 深度爬⾍:静态数据:html css 动态数据:js代码,加密的js
robots:是否允许其他爬⾍(通⽤爬⾍)爬取某些内容
注意:聚焦爬⾍不遵守robots
爬⾍的⼯作原理:
- 1.你抓取⽬标的url是哪⼀个(找)
- 2.使⽤python代码发送请求获取数据(java Go)
- 3.解析获取到的数据(精确数据)
- (1)找到新的⽬标(url)回到第⼀步(⾃动化)
- 4.数据持久化
注:学习资料来源于廖雪峰商业爬虫