pytho爬虫基础:day1

文章介绍了网络爬虫的四种类型,包括通用搜索引擎爬虫、聚焦爬虫、增量式爬虫和深层网络爬虫。同时,讲解了HTTP和HTTPS协议的区别,以及GET和POST请求方式的用途。HTTP响应状态码中的200、307、404和500作为示例进行了说明。此外,提到了使用八爪鱼工具进行网页数据爬取。
摘要由CSDN通过智能技术生成

1,爬虫分类

1.通用网络爬虫:搜索引擎的爬虫。百度搜索引擎

2.聚焦网络爬虫:针对特定网页的爬虫。只抓取与需求相关的网页信息。

3.增量式网络爬虫:只更新改变的地方,而未改变的地方则不更新,

4.深层2网络爬虫

2,协议

HTTP协议:web服务端与浏览器客户端之间通信的协议

HTTPS协议:HTTP的安全版,即http中加入了ssl层,其传输的内容都是经过ssl加密的

URL:对网络资源地址的描述,俗称网址(参数部分从?开始,每一个参数key=value的形        式,参数与参数用&隔开)

3, get与post请求方式

get :从服务器上获取资源,get请求是默认的请求方式,get传参是拼接在url后面

post :向服务器发送数据。Post可以传输大量数据,所以上传文件时只能用Post方式。

            post传输是封装在请求体中,是不可见的

4, http响应状态码

 web服务器响应状态的数字代码:

      200--请求成功

      307--重定向

      404--请求资源在服务器不存在

      500--服务器内部源代码出现错误

5, 使用八爪鱼工具爬取网页数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值