【我的爬虫进阶之旅之Redis实现简易的分布式爬虫】

前言:最近大部分时间都在研究爬虫。公司需要爬取某些网站的数据,动辄千万,亿级页面数据。基于页面量太大。一台机器的爬取效率有限,这时候笔者就想利用多台机器来进行爬取(当然,机器并非越多越好,还要考虑到待爬取网站的服务器性能)。

主要技术栈

  1. Node.js
  2. Puppeteer
  3. MongoDB
  4. Redis
什么是分布式爬虫
  1. 单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。
  2. 分布式爬虫实现了多台电脑使用一个共同的爬虫队列,它可以同时将爬虫任务部署到多台电脑上运行,这样可以突破一台机器性能限制,提高爬虫速度。
关于单机爬虫

单机爬虫一般实现如下:
单机爬虫

问题描述

如果需要多开机器运行单机爬虫,需要解决数据共享问题,不能同时处理同一个URL。相互处理的数据应该互不影响。所以,我们把其中一台设为Master 端,其他机器为Slaver 端。

在这里插入图片描述

心路历程

所有Slaver端 从Master端 获取数据并进行处理。这里我们可以使用Kafka或者RabbitMQ来实现。但是笔者在研究的过程中发现其他MQ组件过重,太过于专业,例如我们如果用RabbitMQ,Kafka就必须为它搭建一个服务器,同时如果要考虑可用性,就要为服务端建立一个集群,而且在生产如果有问题也需要查找功能。所以笔者选择了使用Redis来做轻量级消息队列 。
Master 端伪代码:

...
const redis_client = redis.createClient( 6379, '127.0.0.1');

redis_client.lpush('MSGQ', JSON.stringify(message), function(err, reply){
  if(err){
    console.log('lpush message error :' + err);
  }else{
    console.log('lpush message success');
  }
});

Slaver端伪代码:

...
const redis_client = redis.createClient( 6379, '127.0.0.1');

var producer = function() {
	while(true){
		  //brpop 是阻塞式的,don't worry!!!
		  redis_client.brpop("MSGQ", 0, function(err, re) {
    	  //获取消息,执行爬取任务
    	  crawlData(re);
      });
	}
};

producer();

在这里,我们的主从都是使用本机来模拟的,当然实际上,主从端分别是不同的机器,从机开启循环不断从Redis里面pop数据,这样每个从机的数据互不干扰,相互隔离,你爬你的数据,我爬我的数据。我们可以开无论多少台机器一起来处理数据。

最终效果

在这里插入图片描述

在这里插入图片描述
我们打开Redis可视化视图,发现MQ在逐渐被消耗

在这里插入图片描述 (一段时间后…)在这里插入图片描述

这样我们就可以开多台机器来处理爬虫,加大爬取效率。

总结

最后,我们通过一张图来总结下
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值