爬虫的分类
根据使⽤场景,网络爬虫可分为:
通⽤爬⾍
聚焦爬⾍
爬虫抓取步骤:
确定爬虫URL地址
通过HTTP/HTTPS获取HTML页面
提取数据
通用爬虫与聚焦爬虫工作流程:
通用爬虫流程 聚焦爬虫流程
通⽤网络爬⾍,是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要⽬的是将互联网上的网页,下载到本地,形成⼀个互联网内容的镜像备份。
通用搜索引擎(Search Engine)工作原理
通用网络爬⾍,从互联网中搜集网页,采集信息,这些网页信息⽤于为搜索引擎,建立索引而提供⽀持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
第⼀步:抓取网页
搜索引擎网络爬⾍的基本⼯作流程如下:
-
⾸先选取⼀部分的种⼦URL,将这些URL放⼊待抓取URL队列
</