DataWorks调度配置最佳实战

本文详细介绍了DataWorks基于MaxCompute的调度配置最佳实践,包括调度基本概念、依赖关系、跨周期依赖、自依赖以及实战案例,旨在帮助用户更好地理解和使用DataWorks进行云上数仓的构建与管理。
摘要由CSDN通过智能技术生成

摘要: DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks,可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。

摘要:DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks,可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。在本文中,阿里巴巴计算平台产品专家祎休为大家介绍了通过DataWorks进行新增调度资源、调度资源管理、配置不同周期任务依赖等最佳实践。

直播视频回看,戳这里!
分享资料下载,戳这里!
更多精彩内容传送门:大数据计算技术共享计划 — MaxCompute技术公开课第二季 

 

以下内容根据演讲视频及PPT整理而成。


大家在使用MaxCompute的时候更多地是在DataWorks上面实现基于ETL加工、调度、配置以及云上数仓的构建任务。本文将与大家分享DataWorks后台强大调度系统的实现逻辑以及一些具体的实现案例,希望能够对大家在做云上数仓相关工作时有所帮助。

本次分享主要分成3个部分,在第一部分是调度的基本介绍,主要为大家分享DataWorks的基本概念,这部分将帮助大家理解后续的依赖关系。第二部分将与大家分享依赖关系的简介,比如自依赖、跨周期依赖以及版本依赖等,以及这些依赖之间会在后台生成什么样的实例等。最后一部分将与大家分享依赖关系的实战,为大家剖析两个案例,并回顾本次分享的内容。总体上而言,通过本次分享希望能够帮助大家区分DataWorks和MaxCompute的不同点,让大家更好地理解DataWorks的定位是MaxCompute之上云上数仓的开发工具。

一、调度基本介绍
首先需要明确两个概念:节点和实例。如下图左侧所示,节点是描述DataWorks数据分析和处理过程的基本单元,比如Shell、ODPS SQL、ODPS MR、PyODPS等。而在Dataworks后台前一天23:30的节点会生成快照,统一生成的运行实例。对于用户而言,在配置调度上的最大感触就是在23:30分之前提交的调度配置,会在23:30分之后生效,而在23:30分之后配置的一些依赖关系只能够间隔一天再统一地生成实例。实例会对非天任务进行拆分,如一小时一次的小时节点将会拆分成具体的24个实例。

此外,还需要明白两个关系,就是调度规则和依赖关系。对于调度规则而言,首先需要满足依赖关系,即上游节点必须完成,才能调度下游节点;其次,需要判断定时的时间是否已经到了,如果到了就立即执行,如果没有到,就需要等待时间。对于依赖关系而言,正如下图中右侧所示,是描述两个或多个节点之间的语义连接关系,其中上游节点的状态将影响其他下游节点的运行状态,反之则不成立。

此外,还需要为大家介绍跨周期依赖和自依赖关系。在如下图右侧的栏目去打开就能看到,跨周期的依赖有很多选项,在这些选项背后有很多的概念。第一个就是跨周期依赖,这其实也分了跨周期和跨版本的两个概念,如何理解呢?其实,跨周期依赖是针对小时任务的,也就是小时任务依赖同一天的上一个周期。比如每个节点按照小时进行调度,那当前的节点能否调度起来需要依赖于上一个周期是否成功返回了。另外一部分就是跨版本依赖,这种依赖就是针对于天依赖的任务做的,比如今天任务能否成功运行依赖于昨天的任务能否成功返回,这里更多的会有一些数据的先后依赖关系,因此在这部分需要做跨版本的依赖配置。而自依赖可以理解成为跨周期和跨版本的依赖,针对于天任务&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值