初识理解爬虫

最新推荐文章于 2024-05-01 08:54:07 发布

原创最新推荐文章于 2024-05-01 08:54:07 发布 · 1.6k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了在大数据时代中获取数据的五种方式，包括企业内部数据、数据平台购买、政府公开数据、数据管理咨询公司提供的数据以及爬取网络数据。同时详细讲解了爬虫的概念、用途以及常见的分类，如通用爬虫、聚焦爬虫、累积式与增量式爬虫，以及表层爬虫和深层爬虫的区别。

一、爬虫产生背景

目前的互联网已经迈人大数据时代，通过对海量的数据进行分析，能够产生极大的商业价值。如果需要大量数据，有哪些获取数据的方式?常用的方式有以下几种:

1，企业产生的数据

企业在生产运营中会产生与自身业务相关的大量数据，例如，百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数等。
大型互联网公司拥有海量用户，有天然的数据积累优势。一些有数据意识的中小型企业也开始积累自己的数据。

2，数据平台购买的数据

数据平台是以数据交易为主营业务的平台，例易所等数据平台。在各个数据交易平台上购买各行各业各种类型的数据，根据数据信息、获取难易程度的不同，价格也会有所不同。

3，政府/机构公开的数据

政府和机构也会发布一些公开数据，成为业内权威信息的来源。例如，中华人民共和国国家统计局数据、中国人民银行调查统计、世界银行公开数据、联合国数据、纳斯达克数据、新浪财经美股实时行情等。这些数据通常都是各地政府统计上报，或者由行业内专业的网站、机构等提供。

4.数据管理咨询公司的数据

数据管理咨询公司为了提供专业的咨询服务，会收集和提供与特定业务相关的数据作为支撑。这些管理咨询公司数量众多，如IT 桔子、万得资讯、麦肯锡等。通常，这样的公司都有很庞大的数据团队，一般通过市场调研、问卷调查、固定的样本检测、与各行各业的其他公司合作专家对话来获取数据，并根据客户需求制定商业解决方案。

5.爬取的网络数据

如果数据市场上没有需要的数据，或者价格太高不愿意购买，那么可以利用爬虫技术，爬取网站上的数据。
无论是搜索引擎，还是个人或单位获取目标数据，都需要从公开网站上爬取大量数据，在此需求下，爬虫技术应运而生，并迅速发展成为一门成熟的技术。

二、爬虫的概念

网络爬虫又称网页蜘蛛、网络机器人，是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
如果说网络像一张网，那么爬虫就是网上的一只小虫子，在网上爬行的过程中遇到了数据就把它爬取下来。
这里的数据是指互联网上公开的并且可以访问到的网页信息，而不是网站的后台信息(没有权限访问)，更不是用户注册的信息(非公开的)。

三、爬虫的用途

认识了网络爬虫之后，会产生一个疑问，爬虫具体能做些什么?下面通过一张图来总结网络爬虫的常用功能，

(1)通过网络爬虫可以代替手工完成很多事情。例如，使用网络爬虫搜集金融领域的数据资源，将金融经济的发展与相关数据进行集中处理，能够为金融领域的各个方面(如经济发展趋势、金融投资、风险分析等)提供“数据平台”。

(2)浏览网页上的信息时，会看到上面有很多广告信息，十分扰人。这时，可以利用网络爬虫将网页上的信息全部爬取下来，自动过滤掉这些广告，便于对信息的阅读。(3)想从某个网站中购买商品时，需要知道诸如畅销品牌、价格走势等信息。对于非网站管理员而言，手动统计是一个很大的工程。这时，可以利用网络爬虫轻松地采集到这些数据以便做出进一步的分析。
(4)推销一些理财产品时，需要找到一些目标客户和他们的联系方式。这时，可以利用网络爬虫设置对应的规则，自动从互联网中采集目标用户的联系方式等，以进行营销使用。总而言之，从互联网中采集信息是一项重要的工作，如果单纯地靠人力进行信息采集，不仅低效烦琐，而且消耗成本高。爬虫的出现在一定程度上代替了手工访问网页，实现自动化采
集互联网的数据，从而更高效地利用互联网中的有效信息。

四、爬虫的分类

通常可以按照不同的维度对网络爬虫进行分类，例如，按照使用场景，可将爬虫分为通用爬虫和聚焦爬虫:按照爬取形式，可分为累积式爬虫和增量式爬虫:按照爬取数据的存在方式可分为表层爬虫和深层爬虫。在实际应用中，网络爬虫系统通常是由几种爬虫技术相结合实现的

1.通用爬虫和聚焦爬虫

通用爬虫是搜索引擎爬取系统 ( Baidu、Google、Yahoo 等)的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫，是“面向特定主题需求”的一种网络爬虫程序。

通用爬虫

通用爬虫又称全网爬虫，它将爬取对象从一些种子 URL扩充到整个网络，主要用途是为门户站点搜索引擎和大型 Web 服务提供商采集数据。
通用爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低。同时，由于待刷新的页面太多，通常并行工作方式，但需要较长时间才能刷新一次页面

聚焦爬虫

聚焦爬虫又称主题网络爬虫，是指选择性地爬行那此与预先定义好的主题相关的页面的网络爬虫。
与通用爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源;保存的页面也由于数量少而更新快，可以很好地满足一些特定人群对特定领域信息的需求。

累积式爬虫和增量式爬虫

累积式爬虫

累积式爬虫是指从某一个时间点开始，通过遍历的方式爬取系统所允许存储和处理的所有网页。在理想的软硬件环境下，经过足够的运行时间，采用累积式爬取的策略可以保证爬取到相当规模的网页集合。但由于 Web 数据的动态特性，集合中网页的被爬取时间点是不同的，页面被更新的情况也不同，因此累积式爬取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

增量式爬虫

增量式爬虫是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行爬取，以保证所爬取到的数据与真实网络数据足够接近。进行增量式爬取的前提是，系统已经爬取了足够数量的网络页面，并具有这些页面被爬取的时间信息。
与周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要时爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。
面向实际应用环境的网络蜘蛛设计中，通常既包括累积式爬取，也包括增量式爬取。累积式爬取一般用于数据集合的整体建立或大规模更新阶段;而增量式爬取则主要针对数据集合的日常维护与即时更新。