【Python爬虫开发基础④】爬虫原理

为梦而生~

已于 2024-01-05 21:15:03 修改

阅读量1k

点赞数 2

分类专栏： python网络爬虫从基础到实战文章标签： python 爬虫搜索引擎

于 2023-06-13 07:00:00 首次发布

本文链接：https://blog.csdn.net/z135733/article/details/131168876

版权

python网络爬虫从基础到实战专栏收录该内容

18 篇文章 13 订阅

订阅专栏

专栏：python网络爬虫从基础到实战欢迎订阅！近期还会不断更新~
往期推荐：
【Python爬虫开发基础①】Python基础（变量及其命名规范）
【Python爬虫开发基础②】Python基础（正则表达式）
【Python爬虫开发基础③】Python基础（文件操作方法汇总）
前几篇文章已经介绍完了python的基本语法，包括变量、正则表达式以及文件的操作，接下来让我们把目光转向爬虫，了解一下爬虫的基本原理，让我们后面的学习更加的方便~

1 概述

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

我们可以从以下两个角度理解爬虫：

通过一个程序，根据URL进行爬取网页，获取有用的信息
使用程序来模拟浏览器，去向服务器发送请求，获取响应信息

那么爬虫的核心是什么呢？

爬取网页：爬取整个网页，包含了网页中所有得到的内容
解析数据：将网页中得到的数据进行解析

同时，我们做爬虫的难点：爬虫与反爬虫之间的博弈。

2 网络爬虫分类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：

通用网络爬虫（General Purpose Web Crawler）

实例：百度等搜索引擎
爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。
功能：访问网页→抓取数据→数据存储→数据处理→提供检索服务
策略：
（1）深度优先策略：其方法按照深度由低到高，依次访问下级网页链接，直到不能再深入为止。这种策略适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
（2）广度优先策略：此策略按照网页内容目录层次深浅爬行页面，处于较浅目录层次的页面首先被爬行。这种策略能够有效控制页面爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题。
网站排名：根据PageRank算法值进行排名（可参考以下文章：PageRank原理及C语言实现）

聚焦网络爬虫（Focused Web Crawler）

是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

功能：根据需求，实现爬虫程序，抓取需要的数据
策略：
（1）基于内容评价的爬行策略：DeBra将文本相似度的计算方法引入到网络爬虫中，提出了Fish Search算法，它将用户输入的查询词作为主题，包含查询词的页面被视为与主题相关，其局限性在于无法评价页面与主题相关度的高低。Herseovic对 Fish Search算法进行了改进，提出了Sharksearch算法，利用空间向量模型计算页面与主题的相关度大小。
（2）基于链接结构评价的爬行策略：Web页面作为一种半结构化文档，包含很多结构信息，可用来评价链接重要性。PageRank算法最初用于搜索引擎信息检索中对查询结果进行排序，也可用于评价链接重要性，具体做法就是每次选择PageRank值较大页面中的链接来访问。另一个利用Web结构评价链接价值的方法是HITS方法，它通过计算每个已访问页面的Authority权重和Hub权重，并以此决定链接的访问顺序。
另外，还有基于增强学习的爬行策略和基于语境图的爬行策略
设计思路：
首先确定想要爬取的URL，然后模拟浏览器通过HTTP协议访问该URL，获取服务器返回的HTML代码；最后，解析得到的HTML字符串，获取需要的数据。
这也就是我们最主要学习的爬虫方法。

除此之外，还有增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

3 反爬手段

当然，每个网页不可能无限制的允许我们爬取数据。为此，他们往往设置了反爬手段，来组织我们通过爬虫获取数据。

下面来介绍几种特别常见的反爬手段：

User-Agent：User Agent中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
代理IP（Proxy Server）：的功能是代理网络用户去取得网络信息。形象地说，它是网络信息的中转站，是个人网络和Internet服务商之间的中间代理机构，负责转发合法的网络信息，对转发进行控制和登记。
验证码访问
动态加载网页：由于各种前端技术的渲染，网站返回的是js数据，并不是真实的数据。
数据加密