1,爬虫分类
1.通用网络爬虫:搜索引擎的爬虫。百度搜索引擎
2.聚焦网络爬虫:针对特定网页的爬虫。只抓取与需求相关的网页信息。
3.增量式网络爬虫:只更新改变的地方,而未改变的地方则不更新,
4.深层2网络爬虫
2,协议
HTTP协议:web服务端与浏览器客户端之间通信的协议
HTTPS协议:HTTP的安全版,即http中加入了ssl层,其传输的内容都是经过ssl加密的
URL:对网络资源地址的描述,俗称网址(参数部分从?开始,每一个参数key=value的形 式,参数与参数用&隔开)
3, get与post请求方式
get :从服务器上获取资源,get请求是默认的请求方式,get传参是拼接在url后面
post :向服务器发送数据。Post可以传输大量数据,所以上传文件时只能用Post方式。
post传输是封装在请求体中,是不可见的
4, http响应状态码
web服务器响应状态的数字代码:
200--请求成功
307--重定向
404--请求资源在服务器不存在
500--服务器内部源代码出现错误
5, 使用八爪鱼工具爬取网页数据