DataWorks调度配置最佳实战

最新推荐文章于 2023-01-05 18:42:23 发布

xstardust

最新推荐文章于 2023-01-05 18:42:23 发布

阅读量4k

点赞数 1

文章标签：配置 MaxCompute

本文链接：https://blog.csdn.net/xstardust/article/details/82698587

版权

本文详细介绍了DataWorks基于MaxCompute的调度配置最佳实践，包括调度基本概念、依赖关系、跨周期依赖、自依赖以及实战案例，旨在帮助用户更好地理解和使用DataWorks进行云上数仓的构建与管理。

摘要由CSDN通过智能技术生成

摘要： DataWorks基于MaxCompute作为核心的计算、存储引擎，提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks，可对数据进行数据传输、数据转换等相关操作，从不同的数据存储引入数据，对数据进行转化处理，最后将数据提取到其他数据系统。

摘要：DataWorks基于MaxCompute作为核心的计算、存储引擎，提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks，可对数据进行数据传输、数据转换等相关操作，从不同的数据存储引入数据，对数据进行转化处理，最后将数据提取到其他数据系统。在本文中，阿里巴巴计算平台产品专家祎休为大家介绍了通过DataWorks进行新增调度资源、调度资源管理、配置不同周期任务依赖等最佳实践。

直播视频回看，戳这里！
分享资料下载，戳这里！
更多精彩内容传送门：大数据计算技术共享计划 — MaxCompute技术公开课第二季

以下内容根据演讲视频及PPT整理而成。

大家在使用MaxCompute的时候更多地是在DataWorks上面实现基于ETL加工、调度、配置以及云上数仓的构建任务。本文将与大家分享DataWorks后台强大调度系统的实现逻辑以及一些具体的实现案例，希望能够对大家在做云上数仓相关工作时有所帮助。

本次分享主要分成3个部分，在第一部分是调度的基本介绍，主要为大家分享DataWorks的基本概念，这部分将帮助大家理解后续的依赖关系。第二部分将与大家分享依赖关系的简介，比如自依赖、跨周期依赖以及版本依赖等，以及这些依赖之间会在后台生成什么样的实例等。最后一部分将与大家分享依赖关系的实战，为大家剖析两个案例，并回顾本次分享的内容。总体上而言，通过本次分享希望能够帮助大家区分DataWorks和MaxCompute的不同点，让大家更好地理解DataWorks的定位是MaxCompute之上云上数仓的开发工具。

一、调度基本介绍
首先需要明确两个概念：节点和实例。如下图左侧所示，节点是描述DataWorks数据分析和处理过程的基本单元，比如Shell、ODPS SQL、ODPS MR、PyODPS等。而在Dataworks后台前一天23:30的节点会生成快照，统一生成的运行实例。对于用户而言，在配置调度上的最大感触就是在23:30分之前提交的调度配置，会在23:30分之后生效，而在23:30分之后配置的一些依赖关系只能够间隔一天再统一地生成实例。实例会对非天任务进行拆分，如一小时一次的小时节点将会拆分成具体的24个实例。

此外，还需要明白两个关系，就是调度规则和依赖关系。对于调度规则而言，首先需要满足依赖关系，即上游节点必须完成，才能调度下游节点；其次，需要判断定时的时间是否已经到了，如果到了就立即执行，如果没有到，就需要等待时间。对于依赖关系而言，正如下图中右侧所示，是描述两个或多个节点之间的语义连接关系，其中上游节点的状态将影响其他下游节点的运行状态，反之则不成立。

此外，还需要为大家介绍跨周期依赖和自依赖关系。在如下图右侧的栏目去打开就能看到，跨周期的依赖有很多选项，在这些选项背后有很多的概念。第一个就是跨周期依赖，这其实也分了跨周期和跨版本的两个概念，如何理解呢？其实，跨周期依赖是针对小时任务的，也就是小时任务依赖同一天的上一个周期。比如每个节点按照小时进行调度，那当前的节点能否调度起来需要依赖于上一个周期是否成功返回了。另外一部分就是跨版本依赖，这种依赖就是针对于天依赖的任务做的，比如今天任务能否成功运行依赖于昨天的任务能否成功返回，这里更多的会有一些数据的先后依赖关系，因此在这部分需要做跨版本的依赖配置。而自依赖可以理解成为跨周期和跨版本的依赖，针对于天任务&#