爬虫

最新推荐文章于 2024-08-06 11:55:39 发布

0&1 * 1

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量186

点赞数

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44820920/article/details/111961439

版权

python 专栏收录该内容

34 篇文章 0 订阅

订阅专栏

爬虫

一、简介

1） 基于网络获取数据

2）分类

1.根据网站爬取数量不同：

通用爬虫，例如 搜索引擎
聚焦爬虫，例如 12306，专门抓取一或一类网站数据

2.根据是否以获取数据为目的，可以分为：

功能性爬虫， 比如给你喜欢或关注的人点赞、投票
数据增量爬虫，比如 招聘信息

3.根据url地址和对应的页面内容是否改变，数据增量爬虫可分为：

基于URL地址、内容变化的数据增量爬虫
URL地址不变，内容变化的数据增量爬虫

二、HTTP 和 HTTPS 协议

HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写，是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。

HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等
端口为80

HTTPS 是HTTP + SLL（安全套接字层）SSL对传输文本进行加密
端口为443

请求流程

1.实质-定位资源-URL
2.请求格式:请求行,请求头,
空行,请求数据
请求行:请求方法

1.响应格式:状态行,消息报头,
空行,响应数据
状态行:状态码

三、请求头与相应头

格式
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201230110700331.png#pic_center)

Content-Type
Host（主机和端口）
Connection（连接类型）
Upgrade-Insecure-Requests（升级为HTTPS请求）
User-Agent（浏览器名称）
Referer（页面跳转处）
Cookie（Cookie有时也用其复数形式 Cookies。
指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经		过加密）。最新的规范是 RFC6265）
Authorization（http认证信息）
Set-Cookie（用户信息）
Allow（服务器支持哪些请求方法）
Date（消息发送的时间）
Expires（Rsponse过期时间）
Content-Type（对象类型）
Session（存储在服务器上的数据，只由客户端传上来的SessionId来进行判定）
URL（协议：http/https://）(域名（IP地址和端口：www.baidu.com：8080）)
（路径：//）(参数：？以后)

四、常见的响应状态码

200： 成功
302： 跳转，新的URL在响应location头中给出
303： 浏览器对于POST的响应进行重定向至新的url
307： 浏览器对于GET的响应进行重定向至新的url
403： 资源不可用，服务器理解用户请求，但拒绝处理它（权限不够）
404：找不该页面
500： 服务器内部错误
503： 服务器维护或负载过重无响应
所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到源码才是判断的依据，elements是渲染之后的源码不能作为判断依据