蜘蛛爬行策略或网络抓取

网络爬虫,也称为蜘蛛,常用于搜索引擎的数据更新和页面索引。它们从种子URL开始,识别并添加超链接,形成检索前沿。面对海量数据、快速更新和动态页面的挑战,爬虫需要采用各种策略,如选择、重新访问、礼貌平衡和并行抓取,以高效、有选择性地抓取网页。
摘要由CSDN通过智能技术生成

这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。

打开百度APP,查看更多高清图片

蜘蛛也可以在web上用来自动执行一些任务,例如检查连接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。

一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。

 

爬行策略

下述的三种网络特征,造成了设计网页爬虫抓取策略变得很难:

它巨大的数据量;

它快速地更新频率;

动态页面的产生

它们三个特征一起产生了很多种类的爬虫抓取链接。

巨大的数据量暗示了爬虫,在给定的时间内,只可以抓取所下载网络的一部分,所以,它需要对它的抓取页面设置优先级;快速的更新频率说明在爬虫抓取下载某网站一个网页的时候,很有可能在这个站点又有新的网页被添加进来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值