dolphinschedluer配置进阶

JoyfulRust

已于 2022-04-12 21:54:33 修改

阅读量3.5k

点赞数 3

分类专栏：大数据生态圈 dolphinscheduler 文章标签： database 数据仓库大数据

于 2022-04-12 21:54:15 首次发布

本文链接：https://blog.csdn.net/weixin_45611297/article/details/124135480

版权

大家好🙌我是你们的好朋友，程序员悟啦(乌拉) 😀。相遇是缘，既然来了就拎着小板凳坐下来一起唠会儿😎，如果在文中有所收获，请别忘了一键三连，动动你发财的小手👍，你的鼓励，是我创作的动力😁！废话不多说，直接😎 开干吧！

PS：文末干货，记得拎着小板凳离开的时候也给它顺走 🤣
座右铭：“懒”对一个人的毁灭性有多大，早起的重要性就多大。

文章目录

dolphinschedluer配置进阶

dolphinschedluer配置进阶

🔐任务类型

🔈Shell

Shell 任务类型，用于创建 Shell 类型的任务并执行一系列的 Shell 脚本。worker 执行该任务的时候，会生成一个临时shell脚本，并使用与租户同名的 linux 用户执行这个脚本。

创建任务

点击项目管理-项目名称-工作流定义，点击"创建工作流"按钮，进入DAG编辑页面。
工具栏中拖动到画板中，即可完成创建。

任务参数

任务名称：设置任务的名称。一个工作流定义中的节点名称是唯一的。
运行标志：标识这个节点是否能正常调度,如果不需要执行，可以打开禁止执行开关。
描述：描述该节点的功能。
任务优先级：worker线程数不足时，根据优先级从高到低依次执行，优先级一样时根据先进先出原则执行。
Worker分组：任务分配给worker组的机器机执行，选择Default，会随机选择一台worker机执行。
环境名称：配置运行脚本的环境。
失败重试次数：任务失败重新提交的次数，支持下拉和手填。
失败重试间隔：任务失败重新提交任务的时间间隔，支持下拉和手填。
超时告警：勾选超时告警、超时失败，当任务超过"超时时长"后，会发送告警邮件并且任务执行失败.
脚本：用户开发的SHELL程序。
资源：是指脚本中需要调用的资源文件列表，资源中心-文件管理上传或创建的文件。
自定义参数：是SHELL局部的用户自定义参数，会替换脚本中以${变量}的内容。
前置任务：选择当前任务的前置任务，会将被选择的前置任务设置为当前任务的上游。

任务样例

该样例模拟了常见的简单任务，这些任务只需要简单的一两行命令就能运行起来。我们以打印一行日志为例，该任务仅会在日志文件中打印一行 “This is a demo of shell task”

使用自定义参数

该样例模拟了自定义参数任务，为了更方便的复用已有的任务，或者面对动态的需求时，使用变量保证脚本的复用性。本例中，先在自定义脚本中定义了参数 “param_key”，并将他的值设置为 “param_val”。接着在"脚本"中声明了 echo 命令，将参数 “param_key” 打印了出来。当保存并运行任务后，在日志中会看到将参数 “param_key” 对应的值 “param_val” 打印出来。

🔉SubProcess

子流程节点，就是把外部的某个工作流定义当做一个任务节点去执行。

拖动工具栏中，任务节点到画板中，如下图所示：

节点名称：一个工作流定义中的节点名称是唯一的
运行标志：标识这个节点是否能正常调度
描述信息：描述该节点的功能
超时告警：勾选超时告警、超时失败，当任务超过"超时时长"后，会发送告警邮件并且任务执行失败.
子节点：是选择子流程的工作流定义，右上角进入该子节点可以跳转到所选子流程的工作流定义

🔊Dependent

依赖节点，就是依赖检查节点。比如A流程依赖昨天的B流程执行成功，依赖节点会去检查B流程在昨天是否有执行成功的实例。

拖动工具栏中，任务节点到画板中，如下图所示：

依赖节点提供了逻辑判断功能，比如检查昨天的B流程是否成功，或者C流程是否执行成功。

例如，A流程为周报任务，B、C流程为天任务，A任务需要B、C任务在上周的每一天都执行成功，如图示：

存储过程节点

据选择的数据源，执行存储过程。

拖动工具栏中,任务节点到画板中，如下图所示：

数据源：存储过程的数据源类型支持MySQL和POSTGRESQL两种，选择对应的数据源
方法：是存储过程的方法名称
自定义参数：存储过程的自定义参数类型支持IN、OUT两种，数据类型支持VARCHAR、INTEGER、LONG、FLOAT、DOUBLE、DATE、TIME、TIMESTAMP、BOOLEAN九种数据类型

SQL

SQL任务类型，用于连接数据库并执行相应SQL。

创建任务

点击项目管理-项目名称-工作流定义，点击"创建工作流"按钮，进入DAG编辑页面。
工具栏中拖动到画板中，选择需要连接的数据源，即可完成创建。。

任务参数

数据源：选择对应的数据源
sql类型：支持查询和非查询两种，查询是select类型的查询，是有结果集返回的，可以指定邮件通知为表格、附件或表格附件三种模板。非查询是没有结果集返回的，是针对update、delete、insert三种类型的操作。
sql参数：输入参数格式为key1=value1;key2=value2…
sql语句：SQL语句
UDF函数：对于HIVE类型的数据源，可以引用资源中心中创建的UDF函数，其他类型的数据源暂不支持UDF函数。
自定义参数：SQL任务类型，而存储过程是自定义参数顺序的给方法设置值自定义参数类型和数据类型同存储过程任务类型一样。区别在于SQL任务类型自定义参数会替换sql语句中${变量}。
前置sql:前置sql在sql语句之前执行。
后置sql:后置sql在sql语句之后执行。

任务样例

该样例向hive中创建临时表tmp_hello_world并写入一行数据。选择SQL类型为非查询，在创建临时表之前需要确保该表不存在，所以我们使用自定义参数，在每次运行时获取当天时间作为表名后缀，这样这个任务就可以每天运行。创建的表名格式为：tmp_hello_world_{yyyyMMdd}。