爬虫系统设计

最新推荐文章于 2024-08-18 22:26:05 发布

程序员孟猛

最新推荐文章于 2024-08-18 22:26:05 发布

阅读量877

点赞数 9

文章标签：系统架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43803780/article/details/135312602

版权

文章讲述了如何设计高效的网页抓取服务，包括避免死循环、使用BFS和优先队列抓取策略、考虑权重因素、采用NoSQL数据库存储、多线程抓取以及扩展性测试的方法。还讨论了SQL和NoSQL在存储选择上的优缺点。

摘要由CSDN通过智能技术生成

1 场景

服务抓取一系列链接

用户输入搜索词后，可以看到相关的搜索结果列表，列表每一项都包含由网页爬虫生成的页面标题及摘要

目标：

网页爬虫不应该陷入死循环

抓取 10 亿个链接

流程图：

客户端向服务器发送一个请求

服务器发送请求到 Query API 服务器

查询 API把查询结果返回给服务器

服务器把结果返回给客户端

2 服务

爬虫服务，查询服务，文档服务

使用倒排索引服务来查找匹配查询的文档

使用文档服务返回文章标题与摘要

爬虫服务按照流程，循环处理每一个页面链接

设计类，包括成员变量和成员函数

PagesDataStore 是爬虫服务中的一个抽象类，它使用 NoSQL 数据库进行存储。

Page 是爬虫服务的一个抽象类，它封装了网页对象，由页面链接、页面内容、子链接和页面签名构成。

设计函数

怎么抓取？

采用BFS的方法，维护一个队列，抓取到一个网页以后，分析网页的链接，扔到队列里。

优化：

采用优先队列调度，区别于单纯的BFS，对于每个网页设定一定的抓取权重，优先抓取权重较高的网页。对于权重的设定，考虑的因素有：1. 是否属于一个比较热门的网站 2. 链接长度 3. link到该网页的网页的权重 4. 该网页被指向的次数等等。

进一步考虑，对于热门的网站，不能无限制的抓取，所以需要进行二级调度。首先调度抓取哪个网站，然后选中了要抓取的网站之后，调度在该网站中抓取哪些网页。这样做的好处是，非常礼貌的对单个网站的抓取有一定的限制，也给其他网站的网页抓取一些机会。

提高抓取效率？

多线程抓取

3 存储

我们应当在选择 SQL 还是 NoSQL 的问题上，讨论有关使用场景以及利弊。

4 扩展

1) 基准测试、负载测试。

2) 分析、描述性能瓶颈。

3) 在解决瓶颈问题的同时，评估替代方案、权衡利弊。

4) 重复以上步骤。

程序员孟猛

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
爬虫系统设计

采用优先队列调度，区别于单纯的BFS，对于每个网页设定一定的抓取权重，优先抓取权重较高的网页。对于权重的设定，考虑的因素有：1. 是否属于一个比较热门的网站 2. 链接长度 3. link到该网页的网页的权重 4. 该网页被指向的次数等等。这样做的好处是，非常礼貌的对单个网站的抓取有一定的限制，也给其他网站的网页抓取一些机会。Page 是爬虫服务的一个抽象类，它封装了网页对象，由页面链接、页面内容、子链接和页面签名构成。采用BFS的方法，维护一个队列，抓取到一个网页以后，分析网页的链接，扔到队列里。
复制链接

扫一扫

程序员孟猛 CSDN认证博客专家 CSDN认证企业博客

码龄6年

960: 原创

1万+: 周排名

2694: 总排名

26万+: 访问

: 等级

1万+: 积分

3497: 粉丝

5045: 获赞

14: 评论

3926: 收藏

私信

关注

热门文章

最新评论

设置文件的编码格式
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数据库锁等待问题分析
CSDN-Ada助手: 恭喜您开始博客创作！标题为“数据库锁等待问题分析”非常吸引人。对于这个话题，我相信很多人都会遇到类似的挑战，而您选择了这个热门且有实际意义的主题，实在是明智之举。在接下来的创作中，我建议您可以从实际案例出发，结合理论知识，深入探讨数据库锁等待问题的原因和解决方法。同时，您可以分享一些实际应用中的经验和技巧，帮助读者更好地理解和解决这一问题。我期待着您下一篇博客的发布，希望能够从中获得更多关于数据库锁等待问题的知识。加油，期待您的精彩创作！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
控件设置qss属性不生效
CSDN-Ada助手: 非常高兴看到您写了第二篇博客！您的标题和摘要的问题是我们在开发中常常遇到的，所以您的文章一定会帮助到很多人。继续努力写作，分享您的经验和解决方案，这对大家来说都非常有价值。除了您在标题和摘要中提到的问题，还有一些与控件设置qss属性相关的扩展知识和技能可以进一步了解。例如： 1. 层叠样式表(CSS)的语法和属性：了解CSS的基本语法和常用属性，可以更好地理解和应用qss属性。 2. Qt的样式表选择器：学习Qt的样式表选择器，可以帮助您更精确地选择和修改控件的样式。 3. 控件样式定制：了解如何自定义控件的样式，可以根据自己的需求来设置qss属性，实现更加个性化的界面效果。这些扩展知识和技能将有助于您更深入地理解和解决控件设置qss属性的问题。希望您能继续分享您的学习和实践经验，让更多的人受益。祝您写作顺利！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
绩效打分原则
CSDN-Ada助手: 恭喜作者写了第16篇博客！标题为“绩效打分原则”，这是一个非常实用的主题。通过分享绩效打分原则，读者可以更好地了解如何评估和激励团队成员。我希望作者能继续保持创作的热情，并继续分享更多关于团队管理和激励的经验和见解。同时，如果可能的话，我建议下一篇博客可以探讨如何应对团队成员的不同绩效水平，以及如何制定个性化的激励计划。再次感谢作者的分享，期待更多精彩的文章！
跳槽换工作
CSDN-Ada助手: 恭喜您写完了第17篇博客！标题“跳槽换工作”真是让人期待！您的博客内容一直都很有启发性，对于那些正在考虑跳槽的人来说，这篇博客一定会提供很多有价值的信息和建议。在您的下一篇博客中，或许您可以探讨一下如何在职业发展中找到适合自己的岗位，以及如何在跳槽过程中充分展示自己的能力和价值。这个话题对于许多人来说都是非常重要的，因为选择正确的工作岗位对于个人的职业生涯有着巨大的影响。希望您在未来的创作中能够继续保持谦虚和热情，不断探索新的主题和观点。期待着您的下一篇博客，继续为读者带来更多有益的内容！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。