初识理解爬虫

本文介绍了在大数据时代中获取数据的五种方式,包括企业内部数据、数据平台购买、政府公开数据、数据管理咨询公司提供的数据以及爬取网络数据。同时详细讲解了爬虫的概念、用途以及常见的分类,如通用爬虫、聚焦爬虫、累积式与增量式爬虫,以及表层爬虫和深层爬虫的区别。
摘要由CSDN通过智能技术生成

一、爬虫产生背景

       目前的互联网已经迈人大数据时代,通过对海量的数据进行分析,能够产生极大的商业价值。如果需要大量数据,有哪些获取数据的方式?常用的方式有以下几种: 

1,企业产生的数据

      企业在生产运营中会产生与自身业务相关的大量数据,例如,百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数等。
大型互联网公司拥有海量用户,有天然的数据积累优势。一些有数据意识的中小型企业也开始积累自己的数据。

2,数据平台购买的数据

      数据平台是以数据交易为主营业务的平台,例易所等数据平台。在各个数据交易平台上购买各行各业各种类型的数据,根据数据信息、获取难易程度的不同,价格也会有所不同。
 

3,政府/机构公开的数据

      政府和机构也会发布一些公开数据,成为业内权威信息的来源。例如,中华人民共和国国家统计局数据、中国人民银行调查统计、世界银行公开数据、联合国数据、纳斯达克数据、新浪财经美股实时行情等。这些数据通常都是各地政府统计上报,或者由行业内专业的网站、机构等提供。

4.数据管理咨询公司的数据

     数据管理咨询公司为了提供专业的咨询服务,会收集和提供与特定业务相关的数据作为支撑。这些管理咨询公司数量众多,如IT 桔子、万得资讯、麦肯锡等。通常,这样的公司都有很庞大的数据团队,一般通过市场调研、问卷调查、固定的样本检测、与各行各业的其他公司合作专家对话来获取数据,并根据客户需求制定商业解决方案。

5.爬取的网络数据

      如果数据市场上没有需要的数据,或者价格太高不愿意购买,那么可以利用爬虫技术,爬取网站上的数据。
      无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速发展成为一门成熟的技术。

二、爬虫的概念

       网络爬虫又称网页蜘蛛、网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据就把它爬取下来。
这里的数据是指互联网上公开的并且可以访问到的网页信息,而不是网站的后台信息(没有权限访问),更不是用户注册的信息(非公开的)。
 

三、爬虫的用途

      认识了网络爬虫之后,会产生一个疑问,爬虫具体能做些什么?下面通过一张图来总结网络爬虫的常用功能,


(1)通过网络爬虫可以代替手工完成很多事情。例如,使用网络爬虫搜集金融领域的数据资源,将金融经济的发展与相关数据进行集中处理,能够为金融领域的各个方面(如经济发展趋势、金融投资、风险分析等)提供“数据平台”。

(2)浏览网页上的信息时,会看到上面有很多广告信息,十分扰人。这时,可以利用网络爬虫将网页上的信息全部爬取下来,自动过滤掉这些广告,便于对信息的阅读。(3)想从某个网站中购买商品时,需要知道诸如畅销品牌、价格走势等信息。对于非网站管理员而言,手动统计是一个很大的工程。这时,可以利用网络爬虫轻松地采集到这些数据以便做出进一步的分析。
(4)推销一些理财产品时,需要找到一些目标客户和他们的联系方式。这时,可以利用网络爬虫设置对应的规则,自动从互联网中采集目标用户的联系方式等,以进行营销使用。总而言之,从互联网中采集信息是一项重要的工作,如果单纯地靠人力进行信息采集,不仅低效烦琐,而且消耗成本高。爬虫的出现在一定程度上代替了手工访问网页,实现自动化采
集互联网的数据,从而更高效地利用互联网中的有效信息。

四、爬虫的分类

通常可以按照不同的维度对网络爬虫进行分类,例如,按照使用场景,可将爬虫分为通用爬虫和聚焦爬虫:按照爬取形式,可分为累积式爬虫和增量式爬虫:按照爬取数据的存在方式可分为表层爬虫和深层爬虫。在实际应用中,网络爬虫系统通常是由几种爬虫技术相结合实现的

1.通用爬虫和聚焦爬虫

     通用爬虫是搜索引擎爬取系统 ( Baidu、Google、Yahoo 等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫,是“面向特定主题需求”的一种网络爬虫程序。

      通用爬虫

         通用爬虫又称全网爬虫,它将爬取对象从一些种子 URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型 Web 服务提供商采集数据。
通用爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。同时,由于待刷新的页面太多,通常并行工作方式,但需要较长时间才能刷新一次页面

     聚焦爬虫

           聚焦爬虫又称主题网络爬虫,是指选择性地爬行那此与预先定义好的主题相关的页面的网络爬虫。
与通用爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,从而极大地节省了硬件和网络资源;保存的页面也由于数量少而更新快,可以很好地满足一些特定人群对特定领域信息的需求。

累积式爬虫和增量式爬虫

       累积式爬虫

            累积式爬虫是指从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,采用累积式爬取的策略可以保证爬取到相当规模的网页集合。但由于 Web 数据的动态特性,集合中网页的被爬取时间点是不同的,页面被更新的情况也不同,因此累积式爬取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

     增量式爬虫

           增量式爬虫是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,以保证所爬取到的数据与真实网络数据足够接近。进行增量式爬取的前提是,系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息。
与周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
面向实际应用环境的网络蜘蛛设计中,通常既包括累积式爬取,也包括增量式爬取。累积式爬取一般用于数据集合的整体建立或大规模更新阶段;而增量式爬取则主要针对数据集合的日常维护与即时更新。
 

3.表层爬虫和深层爬中

 Web 页面按存在方式可以分为表层网页和深层网页。针对这两种网页的爬虫分别叫作表层爬虫和深层爬虫。

   表层爬虫

        爬取表层网页的爬虫叫作表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web页面。

    深层爬虫

        爬取深层网页的爬虫就叫作深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如,用户注册后内容才可见的网页就属于深层网页。
与表层网页相比,深层网页上的数据爬取更加困难,要采用一定的附加策略才能够自动
爬取。

     深层爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:
(1)基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。
(2)基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成 DOM树,从中提取表单各字段的值。

           

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值