网络爬虫:爬虫一般指网络爬虫,又名网页蜘蛛,蠕虫等,是一种按照一定等规则,自动抓取网页内容的程序或者脚本。
爬虫的原理:传统的网络爬虫从一个或多个网页的初始url开始,获取这些初始url内容中的新的url,在抓取网页的过程中,不断的从当前页面上抽取出新的url放入到url列列中,直到满足预定的条件时停止。
一些具有特定策略的爬虫工作流程较为复杂,例如聚焦爬虫,他们会根据一定的网页分析算法过滤和主题无关的连接,只保留那些跟主题相关的连接放入到url队列中,然后,他们会根据一定的搜索策略从队列中选择下一步要抓取的网页url,并重复上述过程,直到达到系统的某一条件停止。
爬虫分类:
网络爬虫按照系统结构和实现技术,大致可以分为一下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫,实际的网络爬虫系统通常都是几种爬虫技术相结合实现的。
(1)通用网络爬虫
通用网络爬虫的爬行对象从一些种子url扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。
爬虫的结构大致可以分为初始url、url队列、页面爬行模块、页面分析模块、连接过滤模块、页面数据库集合几个部分。
常用的爬行策略有:深度优先策略、广度优先策略。
(2)聚焦网络爬虫
聚焦网络爬虫又称为主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省来硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。