爬虫基础，搜索引擎原理（个人整理）

最新推荐文章于 2024-04-23 18:06:15 发布

大钦

最新推荐文章于 2024-04-23 18:06:15 发布

阅读量830

点赞数

文章标签：搜索引擎

本文链接：https://blog.csdn.net/weixin_44270211/article/details/108759052

版权

爬虫的分类


通用爬虫	搜索引擎的一部分，将互联网的网页下载到本地，形成镜像
聚焦爬虫	面向特定的需求，在网页抓取的时候对内容已经进行了筛选

更多的是面向聚焦爬虫

抓取网页搜索引擎网络爬虫

1、首先选取一部分的种子url，将这些URL放入到等待抓取的url队列中
2、取出待抓取的url地址，解析等到主机的ip，将url对应的网页下载下来，存储进已经下载的网页库中，并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中
3、分析已经抓取的URL队列中的url，分析其中的其他的url，将这些没有提取的url继续放入到待抓取url队列中，从而进入下一个循环

数据存储

搜索引擎通过爬虫爬取的网页，将数据存储进原始页面数据库，其中的页面数据与用户浏览器得到的html页面是完全一致的

一般情况下，搜索引擎在进行网页抓取的时候，也会做重复内容检测，如果遇到大量抄袭或者复制的内容，就不再爬取了

预处理

搜索引擎将爬虫爬取的内容，会进行各种预处理

提取文字

中文分词

消除噪音

索引处理

链接关系计算

特殊文件处理

…

但是搜索引擎还不能处理图片，视频，flash非文字内容，也不能执行脚本和程序

提供检索服务，网站排名

搜索引擎在对信息进行组织和处理之后，会为用户提供关键字检索服务，将用户检索的信息展示，同时，会根据pagerank（连接访问量）进行网站排名。

大钦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础，搜索引擎原理（个人整理）

爬虫的分类通用爬虫搜索引擎的一部分，将互联网的网页下载到本地，形成镜像聚焦爬虫面向特定的需求，在网页抓取的时候对内容已经进行了筛选更多的是面向聚焦爬虫抓取网页搜索引擎网络爬虫1、首先选取一部分的种子url，将这些URL放入到等待抓取的url队列中2、取出待抓取的url地址，解析等到主机的ip，将url对应的网页下载下来，存储进已经下载的网页库中，并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中3、分析已经抓取的URL队列中的url，分析其
复制链接

扫一扫