蜘蛛爬行策略或网络抓取

最新推荐文章于 2023-10-05 15:18:12 发布

骸骨画

最新推荐文章于 2023-10-05 15:18:12 发布

阅读量502

点赞数

分类专栏：科技文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44935794/article/details/109318615

版权

网络爬虫，也称为蜘蛛，常用于搜索引擎的数据更新和页面索引。它们从种子URL开始，识别并添加超链接，形成检索前沿。面对海量数据、快速更新和动态页面的挑战，爬虫需要采用各种策略，如选择、重新访问、礼貌平衡和并行抓取，以高效、有选择性地抓取网页。

摘要由CSDN通过智能技术生成

这些处理被称为网络抓取或者蜘蛛爬行。很多站点，尤其是搜索引擎，都使用爬虫提供最新的数据，它主要用于提供它访问过页面的一个副本，然后，搜索引擎就可以对得到的页面进行索引，以提供快速的访问。

打开百度APP，查看更多高清图片

蜘蛛也可以在web上用来自动执行一些任务，例如检查连接，确认html代码；也可以用来抓取网页上某种特定类型信息，例如抓取电子邮件地址（通常用于垃圾邮件）。

一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复访问。

爬行策略

下述的三种网络特征，造成了设计网页爬虫抓取策略变得很难：

它巨大的数据量；

它快速地更新频率；

动态页面的产生

它们三个特征一起产生了很多种类的爬虫抓取链接。

巨大的数据量暗示了爬虫，在给定的时间内，只可以抓取所下载网络的一部分，所以，它需要对它的抓取页面设置优先级；快速的更新频率说明在爬虫抓取下载某网站一个网页的时候，很有可能在这个站点又有新的网页被添加进来

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。