Python网络爬虫理解

最新推荐文章于 2024-09-16 07:18:09 发布

ST小姐姐

最新推荐文章于 2024-09-16 07:18:09 发布

阅读量297

点赞数

文章标签： Python 爬虫

本文链接：https://blog.csdn.net/weixin_43871760/article/details/88672104

版权

今天买了一本《玩转python网络爬虫》，打算深入学习网络爬虫~~
刚开始就是基础理解啦~~~
定义：
网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本；
爬虫的类型：
通用网络爬虫：即全网爬虫，常见的有百度、Google等搜索引擎；
聚焦网络爬虫：即主题网络爬虫，根据需求的主题选择性地爬行相关页面；
增量式网络爬虫：对已下载的网页采取增量式更新以及只爬行新产生或者已经发生变化的网页进行爬虫；
深层网络爬虫：针对于只有用户提交一些关键词才能获得的网络页面；
网络爬虫原理：
第一类：通用网络爬虫
首先获取初始的URL，读取URL，解析网页内容，再查找新的URL，继续进行网页解析，直到满足停止条件后便停止；
第二类：聚焦网络爬虫
首先获取初始的URL，读取URL，解析网页内容，再查找新的URL，对新的URL进行过滤，选择有关的URL加入到队列中，根据优先级进行网页解析，直到满足停止条件后便停止；
爬虫的搜索策略：
深度优先搜索：在HTML中找到新的URL，再打开其对应的HTML查找新的URL，以此类推，知道HTML中没有URL为止；
宽度优先搜索：搜索完一个面中所有的URL，然后再继续搜索下一层；
聚焦爬虫的爬行策略：只跳出某个特定的主题页面，根据“最好优先原则”进行访问；
反爬虫技术及解决方案：
用户请求的Headers ----> 在爬虫发送请求中修改或者添加Headers就能很好的解决；
用户操作网站行为 ----> 可使用IP代理，也可以每次请求间隔几秒后在发送下一次请求；
基于网站目录数据加载 ----> 在爬虫中模拟Ajax请求，获取所需数据；
基于数据加密 ----> 找到加密代码，在爬虫代码中模拟其加密处理，在发送请求；
基于验证码识别