解决搜索引擎重复抓取同一网页的有效方法

最新推荐文章于 2023-03-03 18:34:38 发布

肉食动物保护协会

最新推荐文章于 2023-03-03 18:34:38 发布

阅读量1.6k

点赞数

分类专栏：软件开发相关文章标签：搜索引擎 table url 工作网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingqisan/article/details/3939557

版权

软件开发相关专栏收录该内容

25 篇文章 1 订阅

订阅专栏

解决搜索引擎重复抓取同一网页的有效方法

由于一个网页可能被多篇网页链接，在spider的爬取过程中可能会多次得到这个网页的URL，那么怎么避免同一个网页被重复的抓取呢？
一个比较好的方法是准备两张表，一张是visited_table，另一张是unvisited_table，前者记录已被访问过的URL，后者则记录尚未被访问过的URL。系统首先将要搜集的URL放入unvisited_table中，然后spider从其中获取要搜集网页的URL，搜集过的URL就放在visited_table中，新解析出的并且未在visited_table中的URL则放在unvisited_table中。

此方法简单明了，适合在单个节点上使用，但是当搜索子系统涉及到多个节点的时候，这个就先的小儿科了。因为在多个节点中，我们还要考虑如何避免多个节点的重复工作，以及网络的通信量，负载平衡以及单个节点的性能瓶颈等很多问题。

肉食动物保护协会

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
解决搜索引擎重复抓取同一网页的有效方法

解决搜索引擎重复抓取同一网页的有效方法由于一个网页可能被多篇网页链接，在spider的爬取过程中可能会多次得到这个网页的URL，那么怎么避免同一个网页被重复的抓取呢？一个比较好的方法是准备两张表，一张是visited_table，另一张是unvisited_table，前者记录已被访问过的URL，后者则
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。