爬虫

爬虫

一、简介

1) 基于网络获取数据

2)分类

1.根据网站爬取数量不同:

通用爬虫,例如 搜索引擎
聚焦爬虫,例如 12306,专门抓取一或一类网站数据

2.根据是否以获取数据为目的,可以分为:

功能性爬虫, 比如给你喜欢或关注的人点赞、投票
数据增量爬虫,比如 招聘信息

3.根据url地址和对应的页面内容是否改变,数据增量爬虫可分为:

基于URL地址、内容变化的数据增量爬虫
URL地址不变,内容变化的数据增量爬虫

二、HTTP 和 HTTPS 协议

HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。

HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等
端口为80

HTTPS 是HTTP + SLL(安全套接字层)SSL对传输文本进行加密
端口为443

请求流程

1.实质-定位资源-URL
2.请求格式:请求行,请求头,
空行,请求数据
请求行:请求方法

1.响应格式:状态行,消息报头,
空行,响应数据
状态行:状态码

三、请求头与相应头

格式
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201230110700331.png#pic_center)

Content-Type
Host(主机和端口)
Connection(连接类型)
Upgrade-Insecure-Requests(升级为HTTPS请求)
User-Agent(浏览器名称)
Referer(页面跳转处)
Cookie(Cookie有时也用其复数形式 Cookies。
指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经		过加密)。最新的规范是 RFC6265)
Authorization(http认证信息)
Set-Cookie(用户信息)
Allow(服务器支持哪些请求方法)
Date(消息发送的时间)
Expires(Rsponse过期时间)
Content-Type(对象类型)
Session(存储在服务器上的数据,只由客户端传上来的SessionId来进行判定)
URL(协议:http/https://)(域名(IP地址和端口:www.baidu.com:8080))
(路径://)(参数:?以后)

四、常见的响应状态码

200: 成功
302: 跳转,新的URL在响应location头中给出
303: 浏览器对于POST的响应进行重定向至新的url
307: 浏览器对于GET的响应进行重定向至新的url
403: 资源不可用,服务器理解用户请求,但拒绝处理它(权限不够)
404:找不该页面
500: 服务器内部错误
503: 服务器维护或负载过重无响应
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到源码才是判断的依据,elements是渲染之后的源码不能作为判断依据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值