爬虫的分类
通用爬虫 | 搜索引擎的一部分,将互联网的网页下载到本地,形成镜像 |
聚焦爬虫 | 面向特定的需求,在网页抓取的时候对内容已经进行了筛选 |
更多的是面向聚焦爬虫
抓取网页 搜索引擎网络爬虫
1、首先选取一部分的种子url,将这些URL放入到等待抓取的url队列中
2、取出待抓取的url地址,解析等到主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中
3、分析已经抓取的URL队列中的url,分析其中的其他的url,将这些没有提取的url继续放入到待抓取url队列中,从而进入下一个循环
数据存储
搜索引擎通过爬虫爬取的网页,将数据存储进原始页面数据库,其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下,搜索引擎在进行网页抓取的时候,也会做重复内容检测,如果遇到大量抄袭或者复制的内容,就不再爬取了
预处理
搜索引擎将爬虫爬取的内容,会进行各种预处理
提取文字
中文分词
消除噪音
索引处理
链接关系计算
特殊文件处理
…
但是搜索引擎还不能处理图片,视频,flash非文字内容,也不能执行脚本和程序
提供检索服务,网站排名
搜索引擎在对信息进行组织和处理之后,会为用户提供关键字检索服务,将用户检索的信息展示,同时,会根据pagerank(连接访问量)进行网站排名。