python进阶——爬虫（一）——爬虫简介

最新推荐文章于 2024-05-03 15:53:33 发布

weixin_43940444

最新推荐文章于 2024-05-03 15:53:33 发布

阅读量363

点赞数

分类专栏： python新手入门爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_43940444/article/details/108990406

版权

python新手入门同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

网络爬虫

按照一定的规则来通过程序或者脚本来获取网络信息。

典型：百度。

通用的爬虫局限性：

1.不同的公司结果不一样，并不一定是我们想要的结果。
2.通用搜索的网络覆盖率，有限的搜索引擎资源与无线的网络数据不对称，导致两者矛盾加深。
3.不同的数据类型搜索效果不一。

爬虫类型

1.通用爬虫

特点

算法不公开
量大，对速度和空间要求较高，顺序要求较低
页面太多
满足的需求太广泛

原理

1、获取初始化的URL。
2、根据初始化的URL爬取页面并获取新的URL。
3、从URL队列中读取新的URL，从而获得新的网页信息，同时在新网页中获取新的URL，并重复执行。
4、满足爬虫系统设置的停止条件后，停止爬虫。
在这里插入图片描述

2.聚焦爬虫

又为主题爬虫，集中关注的主题。

原理

1、指定方案
2、初始化的URL
3、根据初始的URL爬取页面并获得新的URL。
4、从新的URL过滤掉与需求无关的URL。
5、在URL队列中，根据算法确定URL的优先级。
6、得到新的URL，将新的URL重新上面的路径。
7、满足条件停止后结束。

3.增量爬虫

除了已经获取的网络信息，有更新继续增加。

4.深层网络爬虫

有些东西我们在表面无法爬取，需要登录才看得到内容，就会用到深层网络爬虫。

搜索策略

将搜索范围看成树。

深度优先

深度优先就相当于我们一路沉到底，在这路上找到我们要的节点。

例子：一个网站很多URL，深度优先通过首页的URL进入然后通过这个页面的URL进入新的URL，不断循环，知道返回页面没有URL为止。

宽度优先

宽度优先就是我们先找到大节点，看一遍该节点下的所有子节点，再找再看，一直到我们想要的节点。

例子：搜索一个web页面的所有URL，然后搜索下一层，直到底层为止。

聚焦爬虫的策略

聚焦爬虫策略就是搜索最优解，直接找到自己想要的节点。

针对某个特定的主题的页面，根据最后最有的原则进行访问。

爬虫的合法性

风险

1、与黑客技术结合，攻击网站后台，从而获取后台数据
2、攻击网站，造成不能正常运营。

如何避免

时常优化我们的程序，避免干扰被访问的网站的正常运营。
及时审查爬取的数据，如果出现涉及用户隐私，商业机密或者其他敏感的数据时，应该要及时停止或禁止传播。

正规的开发流程

1、需求说明。
2、爬虫开发计划。
3、功能开发。
4、部署交付。

反爬虫/反反爬虫

判断一个网站是否有反爬机制，需要从多个方面进行判断

1、用户请求的Headers
在爬虫中添加Headers请求头，就能很好解决

2、操作网站的行为
a 使用代理IP，IP在IP代理平台的API获取，每次或者每几次更换一次IP，这样就很容易绕过行为判断。
b 每次请求间隔几秒钟再发送下一次请求，只需要在代码中加一个简单的延时就可以解决了。

3、网站目录加载的方式
分析网站的设计，找到Ajax请求，分析具体的请求参数和响应的数据结构和含义，在爬虫中模拟Ajax请求，就能获取所需要的数据。

4、数据加密
一般采用自动化测试技术，调用浏览器内核，模拟人为操作网页并触发网页的JS脚本，实现自动化操作网页。

5、验证码识别（最有效的反爬虫技术）
第三方平台处理或者OCR及时识别。

robots.text
君子协议，规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。

http 协议

服务器端和客户端进行交互（数据交换）的协议。

HTTP通信的过程简介

通过使用WEB浏览器/网络爬虫或者其他的工具，客户端发起一个到服务器上指定的端口（默认80）的HTTP请求，这个客户端叫做用户代理，响应的服务器为源服务器，请求之后HTTP服务器会在这个端口监听用户端发过来的请求，一旦收到请求，服务器就会发送一个状态行或响应的消息，消息可能是请求的文件或者错误信息或者其他的一些信息。

一般采用TCP。