网络爬虫的故事

  1. 爬虫是什么
    蜘蛛是生物界中很普通的小虫子,但是它却做了一件令人非常佩服的事情–织网捕物。蜘蛛经常会在自己所织的网上捕获食物,而这一行为就如同我们人类想在关系复杂的互联网上获取我们想要的数据。人类是非常聪明和偷懒的,他是不会自己去浩海如烟的互联网中获取“食物”的。那么为了能够更高效的获取数据,人类通常会创造一只小精灵–“小爬虫”去帮助自己做事情。
    1. 爬虫结构
      那么我们来分析一下这小精灵身上有哪些特异功能,它有若干个小脑袋–控制节点,每个小脑袋连接着若干个触角–爬虫结点。各脑袋之间可以相互交流,脑袋和各触角之间也可交流。
      脑袋是需要根据请求地址来分配线程并负责调度触角的。而触角是去捕获猎物,并将猎物收拾好放入储存袋中的。
    2. 聚焦网络爬虫的组成以及流程(基于主题)
      初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤、内容评价和链接评价,模块等组成。
      1、定义或描述爬取的目标
      2、获取初始URL
      3、爬取页面并获得新的URL
      4、过滤无关地链接并将新的URL(符合主题)入队
      5、确定下一步要爬取的链接。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值