1.爬虫基础知识
1.1 爬虫的分类
通用爬虫:搜索引擎的一部分,将互联网的网页下载到本地形成镜像
聚焦爬虫:面向特定的需求,在网络抓取的时候对内容已经进行了筛选
1.1.1 搜索引擎工作原理
1.1.1.1抓取网页 搜索引擎网络爬虫
1、首先选取一部分的种子url,将这些url放入到等待抓取的url队列中
2、取出待抓取的url地址,解析主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取的url放入到已经抓取的url队列中
3、分析已经抓取的url队列中的url,分析其中的其他的url,将这些没有提取的url继续放入待抓取url队列中,从而进入下一循环
1.1.1.2 数据存储
搜索引擎通过爬虫爬取的网页,将数据存储进页面数据库,其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下,搜索引擎在进行网页抓取的时候,也会做重复内容检测,如果遇到大量抄袭或者复制的内容,就不再爬取
1.1.1.3 预处理
搜索引擎将爬虫爬取的内容会进行各种预处理
提取文字
中文分词
消除噪音
索引处理
链接关闭计算
特殊文件处理
…
注意:无法处理图片、视频、flash等非文字内容,也不能执行脚本或程序
1.1.1.4 提供检索服务