爬虫第一天

文章介绍了HTTP的基本请求方法,包括GET、POST、PUT和DELETE,强调了它们的特点和用途。同时,探讨了网络爬虫的类型,如通用爬虫、聚焦爬虫和深度爬虫,以及爬虫的工作原理和robots协议的重要性。
摘要由CSDN通过智能技术生成

http的请求方式

get请求:

  • 比较便携:缺点:比较不安全,明文,参数长度限制
post请求
  • 比较安全
  • 数据整体没有限制
  • 可以上传文件

put请求(不完全)

delete(删除一些信息)

head(请求头)
发送⽹络请求(需要带⼀定的数据给服务器不带数据也可以)
  • 请求头⾥⾯request header
    • Accept:⽂本的格式
      Accept-Encoding:编码格式
      Connection:⻓链接短链接
      Cookie:验证⽤的
      Host:域名
      Referer:标志从哪个⻚⾯跳转过来的
      User-Agent:浏览器和⽤户的信息
  • 返回数据:response

爬虫的分类

通⽤爬⾍

  • 使⽤搜索引擎:百度⾕歌 360 雅⻁搜狗
  • 优势:开放性速度快
  • 劣势:⽬标不明确
  • 返回内容:基本上%90是⽤户不需要的
  • 不清楚⽤户的需求在哪⾥a2ec0baa9f8241298c49d5b457a4620f.png

        ​​​

聚焦爬虫

  • ⽬标明确
  • 对⽤户的需求⾮常精准
  • 返回的内容很固定48c89099023148229e1846880fb143be.png 
增量式:翻⻚:从第⼀⻚请求到最后⼀⻚
Deep 深度爬⾍:静态数据:html css 动态数据:js代码,加密的js
robots:是否允许其他爬⾍(通⽤爬⾍)爬取某些内容
注意:聚焦爬⾍不遵守robots

爬⾍的⼯作原理:

  • 1.你抓取⽬标的url是哪⼀个(找)
  • 2.使⽤python代码发送请求获取数据(java Go)
  • 3.解析获取到的数据(精确数据)
  • (1)找到新的⽬标(url)回到第⼀步(⾃动化)
  • 4.数据持久化
注:学习资料来源于廖雪峰商业爬虫

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值