【我的爬虫进阶之旅之Redis实现简易的分布式爬虫】

最新推荐文章于 2023-04-27 22:47:54 发布

JimmyWong90

最新推荐文章于 2023-04-27 22:47:54 发布

阅读量371

点赞数

本文链接：https://blog.csdn.net/wzy901213/article/details/119643421

版权

前言:最近大部分时间都在研究爬虫。公司需要爬取某些网站的数据,动辄千万，亿级页面数据。基于页面量太大。一台机器的爬取效率有限，这时候笔者就想利用多台机器来进行爬取（当然,机器并非越多越好，还要考虑到待爬取网站的服务器性能）。

主要技术栈

Node.js
Puppeteer
MongoDB
Redis

什么是分布式爬虫

单机爬虫，就是说它只能在一台电脑上运行，因为爬虫调度器当中的队列queue都只能在本机上创建的，其他电脑无法访问另外一台电脑上的内存和内容。
分布式爬虫实现了多台电脑使用一个共同的爬虫队列，它可以同时将爬虫任务部署到多台电脑上运行，这样可以突破一台机器性能限制，提高爬虫速度。

关于单机爬虫

单机爬虫一般实现如下:

问题描述

如果需要多开机器运行单机爬虫，需要解决数据共享问题，不能同时处理同一个URL。相互处理的数据应该互不影响。所以，我们把其中一台设为Master 端,其他机器为Slaver 端。

在这里插入图片描述

心路历程

所有Slaver端从Master端获取数据并进行处理。这里我们可以使用Kafka或者RabbitMQ来实现。但是笔者在研究的过程中发现其他MQ组件过重，太过于专业，例如我们如果用RabbitMQ，Kafka就必须为它搭建一个服务器，同时如果要考虑可用性，就要为服务端建立一个集群，而且在生产如果有问题也需要查找功能。所以笔者选择了使用Redis来做轻量级消息队列。
Master 端伪代码:

...
const redis_client = redis.createClient( 6379, '127.0.0.1');

redis_client.lpush('MSGQ', JSON.stringify(message), function(err, reply){
  if(err){
    console.log('lpush message error :' + err);
  }else{
    console.log('lpush message success');
  }
});

Slaver端伪代码:

...
const redis_client = redis.createClient( 6379, '127.0.0.1');

var producer = function() {
	while(true){
		  //brpop 是阻塞式的，don't worry!!!
		  redis_client.brpop("MSGQ", 0, function(err, re) {
    	  //获取消息，执行爬取任务
    	  crawlData(re);
      });
	}
};

producer();

在这里，我们的主从都是使用本机来模拟的，当然实际上，主从端分别是不同的机器,从机开启循环不断从Redis里面pop数据，这样每个从机的数据互不干扰，相互隔离，你爬你的数据，我爬我的数据。我们可以开无论多少台机器一起来处理数据。

最终效果

在这里插入图片描述

在这里插入图片描述
我们打开Redis可视化视图，发现MQ在逐渐被消耗

在这里插入图片描述（一段时间后…）

这样我们就可以开多台机器来处理爬虫，加大爬取效率。

总结

最后,我们通过一张图来总结下
在这里插入图片描述

JimmyWong90

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【我的爬虫进阶之旅之Redis实现简易的分布式爬虫】

前言:最近大部分时间都在研究爬虫。公司需要爬取某些网站的数据,动辄千万，亿级页面数据。基于页面量太大。一台机器的爬取效率有限，这时候笔者就想利用多台机器来进行爬取（当然,机器并非越多越好，还要考虑到待爬取网站的服务器性能）。主要技术栈Node.jsPuppeteerMongoDBRedis什么是分布式爬虫单机爬虫，就是说它只能在一台电脑上运行，因为爬虫调度器当中的队列queue都只能在本机上创建的，其他电脑无法访问另外一台电脑上的内存和内容。分布式爬虫实现了多台电脑使用一个共同的爬虫队
复制链接

扫一扫