爬虫和蜘蛛的区别是什么?

你经常会听到程序员们谈论爬虫(Crawler),有的时候叫蜘蛛(Spider),你知道爬虫和蜘蛛的区别是什么吗?

简单来说

简单的来说,爬虫关注从一个或多个预定义的网站中提取特定数据。而蜘蛛专注于在网络上发现 新的URL。

不同的目的

更深入地来说,Spider和Crawler的目的和它们的工作方式也有很大的不同。

在Crawler中,一切都与数据有关。您要从特定网站提取的数据字段。程序通常知道目标网站,虽然可能不知道具体的页面URL,但至少域名是限定内的。

而Spider可能既不知道具体的 URL,也可能不知道域名。通常来说,搜索引擎的抓取系统都是Spider,这些Spider用来索引页面并将其显示在搜索结果中。

不同的输出

对于Spider来说,输出数据是URL本身。

对于Crawler来说,我们通常会关注相当多的字段。 URL可以是符合pattern的一组URL,当Crawler抓取时,你提取的数据通常是网站上显示的其他数据字段,例如商品标题、价格、销量、评论等,主要取决于你的业务。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值