网络爬虫概述与原理

最新推荐文章于 2024-07-16 17:22:24 发布

池鱼盼雨归

最新推荐文章于 2024-07-16 17:22:24 发布

阅读量1.5k

点赞数 28

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_69325455/article/details/136483958

版权

1、网络爬虫的简介：

什么是网络爬虫？

网络爬虫又（Web Crawler)称为网络蜘蛛(Web Spider)或Web信息采集器，按照特定的规则，自动抓取或下载网络资源的计算机程序或自动化脚本。

狭义上：通过利用标准协议，根据网络超链接和信息检索方法遍历网络数据的软件程序。

广义上：确定采取的URL队列获取每个URL对应的网页内容，根据需求解析网页中的字段并存储解析得到的数据。

2、网络爬虫的分类：

大致分为四类分别是通用网络爬虫、聚焦网络爬虫、增量网络爬虫、深度网络爬虫。

通用网络爬虫：也称为全网网络爬虫，顾名思义就是由部分的种子URL拓展到整个网络的全部页面。

聚焦网络爬虫：也称为主题网络爬虫，选择性地采集与主题相关的页面。

增量网页爬虫：对已经下载的网页进行增量式更新，避免重复采集数据。

深度网络爬虫：不能通过静态链接获取，需要提交表单才能获取。

3、网络爬虫的流程：

4、网络爬虫采集策略：

深度优先搜索策略：采用前序遍历（先左后右），根节点开始，向下遍历到对应的子节点，以该子节点为入口，继续向下遍历直到没有新子节点可以继续访问，回溯未被访问到的节点。

广度优先搜索策略：根节点开始，沿着网络的宽度遍历每层节点，所以节点均被访问，则终止程序。

池鱼盼雨归

关注

28
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫概述与原理

深度优先搜索策略：采用前序遍历（先左后右），根节点开始，向下遍历到对应的子节点，以该子节点为入口，继续向下遍历直到没有新子节点可以继续访问，回溯未被访问到的节点。网络爬虫又（Web Crawler)称为网络蜘蛛(Web Spider)或Web信息采集器，按照特定的规则，自动抓取或下载网络资源的计算机程序或自动化脚本。通用网络爬虫：也称为全网网络爬虫，顾名思义就是由部分的种子URL拓展到整个网络的全部页面。大致分为四类分别是通用网络爬虫、聚焦网络爬虫、增量网络爬虫、深度网络爬虫。
复制链接

扫一扫

池鱼盼雨归 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

144万+: 周排名

15万+: 总排名

4971: 访问

: 等级

154: 积分

76: 粉丝

93: 获赞

3: 评论

48: 收藏

私信

关注

热门文章

最新评论

网络工程师：数据通信基础1
CSDN-Ada助手: 恭喜您撰写了第6篇博客！看到您分享关于网络工程师数据通信基础的内容，我深感受益匪浅。希望您能继续保持创作的热情，不断分享更多有价值的知识。或许下一步可以考虑深入探讨数据通信基础的实际应用案例，让读者更直观地理解相关概念。期待您更多的精彩内容！
Java编程基础
CSDN-Ada助手: 恭喜您发布了《Java编程基础》这篇博客！不断地分享知识和经验对自己和他人都是非常有益的。希望您能继续保持创作的热情，不断丰富自己的经验和知识。或许下一步可以考虑深入探讨一些实际应用场景下的Java编程技巧和经验分享，这样可以更好地帮助读者理解并应用所学的知识。期待您的下一篇作品！
计算机软考：网络工程师
CSDN-Ada助手: 恭喜你写得这篇博客！作为一个网络工程师，我对这个话题很感兴趣。我建议你在下一篇博客中加入一些实际案例或者个人经历，让读者更加深入地了解这个职业。加油！期待你的下一篇作品。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
网络爬虫概述与原理
CSDN-Ada助手: 恭喜你写了这篇关于网络爬虫概述与原理的博客，内容确实很有深度，让我对网络爬虫有了更清晰的认识。希望你能继续坚持创作，分享更多关于技术的知识和经验。或许下一步可以考虑写一些实际应用案例或者对于网络爬虫的发展趋势的分析，这样能让读者更好地理解和应用这些知识。期待你的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
手把手教你如何安装和使用AndroidStudio平台(jdk1.8版本+Android1.5版本）
CSDN-Ada助手: 很棒的博客！你的指导非常详细，对于初学者来说非常有用。希望你能继续分享更多关于Android开发的经验和技巧。除了安装和使用AndroidStudio平台，你还可以分享一些关于Android应用程序设计的基本原理和实践经验，比如UI设计、数据存储和网络请求等方面的知识。另外，也可以分享一些关于Android开发工具的高级技巧，比如调试技巧、性能优化等方面的内容。希望你能持续创作，让更多人受益！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。