分布式作业调度框架——Elastic-Job
1.概述
Elastic-Job是当当开源的分布式弹性作业框架。Elastic-Job分为lite和cloud两个相对独立的版本,lite版为轻量级去中心化的版本,cloud版则是基于Mesos + Docker方案提供了资源治理、应用分发和服务隔离的功能。我们项目使用的是lite版的Elastic-Job,因此本文主要围绕lite版本进行介绍。
elastic-job-lite主要的设计理念是无中心化的分布式定时调度框架,思路来源于Quartz的基于数据库的高可用方案。但数据库没有分布式协调功能,所以在高可用方案的基础上增加了弹性扩容和数据分片的思路,以便于更大限度的利用分布式服务器的资源。
1.1 分片
任务的分布式执行,需要将一个任务拆分为多个独立的任务项,然后由分布式的服务器分别执行某一个或几个分片项。
例如:有一个遍历数据库某张表的作业,现有2台服务器。
为了快速的执行作业,那么每台服务器应执行作业的50%。 为满足此需求,可将作业分成2片,每台服务器执行1片。
作业遍历数据的逻辑可以为:服务器A遍历ID以奇数结尾的数据;服务器B遍历ID以偶数结尾的数据。
如果分成10片,则服务器A被分配到分片项0,1,2,3,4;服务器B被分配到分片项5,6,7,8,9。
作业遍历数据的逻辑可以为:服务器A遍历ID以0-4结尾的数据;服务器B遍历ID以5-9结尾的数据。
1.2 分片项与业务处理解耦
Elastic-Job并不直接提供数据处理的功能,框架只会将分片项分配至各个运行中的作业服务器,开发者需要自行处理分片项与真实数据的对应关系。以上面例子分成10片为例,框架只负责决定服务器分配到哪些分片项,由作业分配策略决定,但是每个分片处理哪一部分数据,比如第一个分片处理id以0-4结尾的数据,是由开发者去决定和处理的。
1.3 去中心化
elastic-job-lite是去中心化设计,作业调度中心节点,各个作业节点是自治的,作业框架的程序在到达相应时间点时各自触发调度,缺点是可能会存在各个作业服务器的时间不一致的问题。
2.主要功能
- 定时任务: 基于成熟的定时任务作业框架Quartz cron表达式执行定时任务。
- 作业注册中心: 基于Zookeeper和其客户端Curator实现的全局作业注册控制中心。用于注册,控制和协调分布式作业执行。
- 作业分片: 将一个任务分片成为多个小任务项在多服务器上同时执行。
- 弹性扩容缩容: 运行中的作业服务器崩溃,或新增加n台作业服务器,作业框架将在下次作业执行前重新分片,不影响当前作业执行。
- 支持多种作业执行模式: 支持OneOff,Perpetual和SequencePerpetual三种作业模式。
- 失效转移: 运行中的作业服务器崩溃不会导致重新分片,只会在下次作业启动时分片。启用失效转移功能可以在本次作业执行过程中,监测其他作业服务器空闲,抓取未完成的孤儿分片项执行。
- 运行时状态收集: 监控作业运行时状态,统计最近一段时间处理的数据成功和失败数量,记录作业上次运行开始时间,结束时间和下次运行时间。
- **作业停止,恢复和禁用:**用于操作作业启停,并可以禁止某作业运行(上线时常用)。
- **被错过执行的作业重触发:**自动记录错过执行的作业,并在上次作业完成后自动触发。可参考Quartz的misfire。
- **多线程快速处理数据:**使用多线程处理抓取到的数据,提升吞吐量。
- **幂等性:**重复作业任务项判定,不重复执行已运行的作业任务项。由于开启幂等性需要监听作业运行状态,对瞬时反复运行的作业对性能有较大影响。
- **容错处理:**作业服务器与Zookeeper服务器通信失败则立即停止作业运行,防止作业注册中心将失效的分片分项配给其他作业服务器,而当前作业服务器仍在执行任务,导致重复执行。
- **Spring****支持:**支持spring容器,自定义命名空间,支持占位符。
- **运维平台:**提供运维界面,可以管理作业和注册中心。
3.快速开发
官方的版本可以通过两种方式进行作业开发:
- 通过代码动态加载;
- 通过spring的xml文件配置加载:
具体可以参看官方文档——快速入门、官方文档——开发指南。
由于我们的项目采用的是springboot框架,因此个人在官方代码的基础上做了一层封装,增加通过注解配置任务、sleuth组件支持,具体见: