爬虫基础知识

网络爬虫:爬虫一般指网络爬虫,又名网页蜘蛛,蠕虫等,是一种按照一定等规则,自动抓取网页内容的程序或者脚本。爬虫的原理:传统的网络爬虫从一个或多个网页的初始url开始,获取这些初始url内容中的新的url,在抓取网页的过程中,不断的从当前页面上抽取出新的url放入到url列列中,直到满足预定的条件时停止。一些具有特定策略的爬虫工作流程较为复杂,例如聚焦爬虫,他们会根据一定的网页分析算法过滤和主题无关的连接,只保留那些跟主题相关的连接放入到url队列中,然...
摘要由CSDN通过智能技术生成

        网络爬虫:爬虫一般指网络爬虫,又名网页蜘蛛,蠕虫等,是一种按照一定等规则,自动抓取网页内容的程序或者脚本。

        爬虫的原理:传统的网络爬虫从一个或多个网页的初始url开始,获取这些初始url内容中的新的url,在抓取网页的过程中,不断的从当前页面上抽取出新的url放入到url列列中,直到满足预定的条件时停止。

        一些具有特定策略的爬虫工作流程较为复杂,例如聚焦爬虫,他们会根据一定的网页分析算法过滤和主题无关的连接,只保留那些跟主题相关的连接放入到url队列中,然后,他们会根据一定的搜索策略从队列中选择下一步要抓取的网页url,并重复上述过程,直到达到系统的某一条件停止。

爬虫分类:

  网络爬虫按照系统结构和实现技术,大致可以分为一下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫,实际的网络爬虫系统通常都是几种爬虫技术相结合实现的。

(1)通用网络爬虫
  通用网络爬虫的爬行对象从一些种子url扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。 
爬虫的结构大致可以分为初始url、url队列、页面爬行模块、页面分析模块、连接过滤模块、页面数据库集合几个部分。 
常用的爬行策略有:深度优先策略、广度优先策略。

(2)聚焦网络爬虫
  聚焦网络爬虫又称为主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省来硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值