搜索引擎—通用爬虫框架及工作流程

最新推荐文章于 2024-07-26 17:44:34 发布

lesliefish

最新推荐文章于 2024-07-26 17:44:34 发布

阅读量4.2k

点赞数 1

文章标签：网络爬虫框架搜索引擎爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y396397735/article/details/49658767

版权

课题-->搜索引擎专栏收录该内容

6 篇文章 0 订阅

订阅专栏

通用搜索引擎的处理对象是互联网网页，所以搜索引擎首先面临的问题是：如何能够设计出高效的下载系统，将海量的网页数据传到本地，在本地形成互联网网页的备份。
网络爬虫即起此作用，它是搜索引擎系统中很关键的基础构件。下面是一个通用的爬虫框架：

这里写图片描述

爬虫工作基本流程：
1、首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL
2、将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取
3、将URL通过DNS解析
4、把链接地址转换为网站服务器对应的IP地址
5、网页下载器通过网站服务器对网页进行下载
6、下载的网页为网页文档形式
7、对网页文档中的URL进行抽取
8、过滤掉已经抓取的URL
9、对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。
其中，下载的网页文档一部分存储到页面库中，等待建立索引等后续处理，另一方面将网页中的URL存入已抓取URL库中，提供给步骤8进行过滤。

这便是一个基本的通用网络爬虫框架及其工作流程。

知识来源：《这就是搜索引擎—核心技术详解》第二章网络爬虫

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。