网络爬虫初识

第一章 初识爬虫

1.1 背景

互联网大数据时代,对海量数据分析产生巨大的商业价值,爬虫技术是获取大量数据的常用方式;

1.2 爬虫概念

网络爬虫,又称网页蜘蛛,网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本;

1.3 爬虫的用途

(1)网络爬虫代替手工;
(2)通过网络爬虫过滤广告等冗余信息,便于阅读;
(3) 通过网络爬虫获取某些特定的信息,例如,从不同网页中获取联系方式等;
总之,爬虫能使得在互联网中进行信息采集更加方便高效;

1.4 爬虫的分类

1.4.1 按使用场景分类:

(1)通用爬虫:又称全网爬虫,爬行范围和数量巨大,比较耗费资源;
(2)聚焦爬虫:又称主题网络爬虫,选择性的爬取与预定主题相关的页面,极大的节省硬件和网络资源;

1.4.2 按爬行方式分类:

(1)累积式爬虫:从某个时间点开始,通过遍历的方式爬取系统所允许的存储和处理的所有页面
(2)增量式爬虫:在具有一定规模的网络界面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,保证所抓取到的数据与真实网络数据足够接近。

1.4.3 按爬取数据的存在方式分类:

(1)表层爬虫:爬取表层网页的爬虫叫做表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
(2)深层爬虫:爬取深层网页的爬虫就叫做深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值