自学习笔记:大致看了下elastic-job的源码,并以此自问自带,提到影响。如有错误还请指正。同时欢迎交流,QA也不妨是一种学习方式
Q:如何保证任务同时开始,同时结束;什么样的任务有这样的需求?
Q: job禁用和终止的区别
Q:哪些操作会触发重新分片?
A:server或者instance发生更新;分片数量发生变更
Q:server和jobInstance分别代表什么,为什么有这2个概念
A:一个server可以同时运行多个
Q:leaderService的作用?
A:leaderService是为了选举leader JobInstance;只有leader JobInstance才能进行分片
Q:故障分片转移处理流程
A:首先收集故障分片:这里故障分片有2种,一种是别的节点挂了后,分配给故障节点的分片,然后故障节点又挂了。这种分片又重新拿出来进行分片
第二种就是故障节点本身分配到的正常分片。
有了故障分片后,开始执行分配。重新分配其实就是各个节点针对故障分片,进行分布式的抢占。抢到了后会直接trgger执行
Q: 分片完成后,各个节点怎么执行分片里面的任务?
A:定时任务都是 quartz进行定时逻辑。执行逻辑交给ElasticJobExecutor.execute。在execute里面会搞分片,分片完了以后就是执行。多个分片会每个分片执行完以后,统一结束
Q:分片从0开始还是1开始;分片策略有哪些,简单说说
A:分片从0开始;平均9=(0-2,3-5,6-8)8=(0,1,6)(2,3,7)(4,5) 10=(0,1,2,9)(3-5)(6-8)
根据ip排序 + 再平均
根据名称轮转 + 再平均 这样当不能整除的时候,大家轮流承担多一点的任务处理
Q: 多节点,如何确保只有一个节点执行
A: 分片都是由leader节点来分的,而leader是进行分布式锁竞争来的;那如果各个节点的执行时间不一致怎么办?如果
Q:leader节点挂掉怎么办?
A:监听leader节点,如果leader没了,重新选举;leader必然只能持久化为临时节点,这样挂掉则删除,触发监听
Q:定时任务执行时间太长,导致第二轮来的时候还在执行怎么办?
A:misfire。对于本节点中的正在执行的分片任务,都设置一个misfire标志,然后直接跳过。对于上一轮的执行,如果发现有misfire标志,则需要在执行完成后又执行一次
分片任务(并发无序,需要汇总)
编排任务(有序,不需要汇总)
Q: 如何分摊执行压力?
A:如果是分片的任务,目前可以通过那个分片策略算法来搞
Q:出现问题,如何快速通知责任人
A:有errorHandler的钩子
设计时,脱离框架;spring的框架只是一种实现
zookeeper 的createMode
持久化节点:创建这个节点的会话结束就会删除
PERSISTENT
PERSISTENT_SEQUENTIAL
临时节点:创建这个节点的会话结束就会删除
EPHEMERAL
EPHEMERAL_SEQUENTIAL
突破AOP的层层代理,获取最原始的代理类
public String getJobClassName(final ElasticJob elasticJob) {
return AopUtils.isAopProxy(elasticJob) ? AopTargetUtils.getTarget(elasticJob).getClass().getName() : elasticJob.getClass().getName();
}
基于zk的分布式锁选主
try (LeaderLatch latch = new LeaderLatch(client, key)) {
latch.start();
latch.await();
// 抢占式选主,抢占的key
callback.execute();
//CHECKSTYLE:OFF
} catch (final Exception ex) {
//CHECKSTYLE:ON
handleException(ex);
}
zk节点监听
public void watch(final String key, final DataChangedEventListener listener, final Executor executor) {
CuratorCache cache = caches.get(key + "/");
CuratorCacheListener cacheListener = (curatorType, oldData, newData) -> {
if (null == newData && null == oldData) {
return;
}
Type type = getTypeFromCuratorType(curatorType);
// 如果是delete,那么用旧路径,否则用新路径
String path = Type.DELETED == type ? oldData.getPath() : newData.getPath();
if (path.isEmpty() || Type.IGNORED == type) {
return;
}
// TODO child data具体是啥?
// 新增或者更新的数据,就都用新的数据
byte[] data = Type.DELETED == type ? oldData.getData() : newData.getData();
listener.onChange(new DataChangedEvent(type, path, null == data ? "" : new String(data, StandardCharsets.UTF_8)));
};
if (executor != null) {
// 这里是放线程池里执行的吧
cache.listenable().addListener(cacheListener, executor);
} else {
cache.listenable().addListener(cacheListener);
}
}
Elastic - Job 普通任务的核心
故障分片转移: 高可用
任务分片执行:并行+弹性扩容
幂等(任务错过并能重新执行,同一分片不会同时在多个节点执行):数据一致性
zookeeper:集中管理+
从e-job的节点理解elastic-job的工作模式