大数据技术之DolphinScheduler

泽泽野

已于 2022-03-16 18:53:45 修改

阅读量1.9w

点赞数 17

分类专栏：大数据文章标签： big data 运维 linux

于 2022-03-16 15:03:04 首次发布

本文链接：https://blog.csdn.net/weixin_47884711/article/details/123523144

版权

大数据专栏收录该内容

15 篇文章 4 订阅

订阅专栏

文章目录

大数据技术之DolphinScheduler

大数据技术之DolphinScheduler

第1章 DolphinScheduler简介

1.1 DolphinScheduler概述

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

1.2 DolphinScheduler核心架构

DolphinScheduler的主要角色如下：

MasterServer采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交、任务监控，并同时监听其它MasterServer和WorkerServer的健康状态。
WorkerServer也采用分布式无中心设计理念，WorkerServer主要负责任务的执行和提供日志服务。
ZooKeeper服务，系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。
Alert服务，提供告警相关服务。
API接口层，主要负责处理前端UI层的请求。
UI，系统的前端页面，提供系统的各种可视化操作界面。

在这里插入图片描述

第2章 DolphinScheduler部署说明

2.1 软硬件环境要求

2.1.1 操作系统版本要求

操作系统	版本
Red Hat Enterprise Linux	7.0 及以上
CentOS	7.0 及以上
Oracle Enterprise Linux	7.0 及以上
Ubuntu LTS	16.04 及以上

2.1.2 服务器硬件要求

CPU	内存	网络
4核+	8 GB+	千兆网卡

2.2 部署模

DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（Pseudo-Cluster）、集群模式（Cluster）等。

2.2.1 单机模式

单机模式（standalone）模式下，所有服务均集中于一个StandaloneServer进程中，并且其中内置了注册中心Zookeeper和数据库H2。只需配置JDK环境，就可一键启动DolphinScheduler，快速体验其功能。

2.2.2 伪集群模式

伪集群模式（Pseudo-Cluster）是在单台机器部署 DolphinScheduler 各项服务，该模式下master、worker、api server、logger server等服务都只在同一台机器上。Zookeeper和数据库需单独安装并进行相应配置。

2.2.3 集群模式

集群模式（Cluster）与伪集群模式的区别就是在多台机器部署 DolphinScheduler各项服务，并且可以配置多个Master及多个Worker。

第3章 DolphinScheduler集群模式部署

3.1 集群规划

集群模式下，可配置多个Master及多个Worker。通常可配置2~3个Master，若干个Worker。由于集群资源有限，此处配置一个Master，三个Worker，集群规划如下。

hadoop102	master、worker
hadoop103	worker
hadoop104	worker

3.2 前置准备工作

三台节点均需部署JDK（1.8+），并配置相关环境变量。
需部署数据库，支持MySQL（5.7+）或者PostgreSQL（8.2.15+）。
需部署Zookeeper（3.4.6+）。
三台节点均需安装进程管理工具包psmisc。

[liumingze@hadoop102 ~]$ sudo yum install -y psmisc

[liumingze@hadoop103 ~]$ sudo yum install -y psmisc

[liumingze@hadoop104 ~]$ sudo yum install -y psmisc

3.3 解压DolphinScheduler安装包

1）上传DolphinScheduler安装包到hadoop102节点的/opt/software目录

2）解压安装包到当前目录

注：解压目录并非最终的安装目录

[liumingze@hadoop102 software]$ tar -zxvf apache-dolphinscheduler-1.3.9-bin.tar.gz

3.4 初始化数据库

DolphinScheduler 元数据存储在关系型数据库中，故需创建相应的数据库和用户。

1）创建数据库

mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

2）创建用户

mysql> CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'dolphinscheduler';

注：

若出现以下错误信息，表明新建用户的密码过于简单。

ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

可提高密码复杂度或者执行以下命令降低MySQL密码强度级别。

mysql> set global validate_password_length=4;

mysql> set global validate_password_policy=0;

3）赋予用户相应权限

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%';

mysql> flush privileges;

4）修改数据源配置文件

进入DolphinScheduler解压目录

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ cd /opt/software/apache-dolphinscheduler-1.3.9-bin/

修改conf目录下的datasource.properties文件

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ vim conf/datasource.properties

修改内容如下

spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://hadoop102:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8
spring.datasource.username=dolphinscheduler
spring.datasource.password=dolphinscheduler

5）拷贝MySQL驱动到DolphinScheduler的解压目录下的lib中

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ cp /opt/software/mysql-connector-java-5.1.27-bin.jar lib/

6）执行数据库初始化脚本

数据库初始化脚本位于DolphinScheduler解压目录下的script目录中，即/opt/software/ds/apache-dolphinscheduler-1.3.9-bin/script/。

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ script/create-dolphinscheduler.sh

3.5 配置一键部署脚本

修改解压目录下的conf/config目录下的install_config.conf文件

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ vim conf/config/install_config.conf

修改内容如下

# postgresql or mysql
dbtype="mysql"

# db config
# db address and port
dbhost="hadoop102:3306"

# db username
username="dolphinscheduler"

# database name
dbname="dolphinscheduler"

# db passwprd
# NOTICE: if there are special characters, please use the \ to escape, for example, `[` escape to `\[`
password="dolphinscheduler"

# zk cluster
zkQuorum="hadoop102:2181,hadoop103:2181,hadoop104:2181"

# Note: the target installation path for dolphinscheduler, please not config as the same as the current path (pwd)
installPath="/opt/module/dolphinscheduler"

# deployment user
# Note: the deployment user needs to have sudo privileges and permissions to operate hdfs. If hdfs is enabled, the root directory needs to be created by itself
deployUser="atguigu"

# resource storage type: HDFS, S3, NONE
resourceStorageType="HDFS"

# resource store on HDFS/S3 path, resource file will store to this hadoop hdfs path, self configuration, please make sure the directory exists on hdfs and have read write permissions. "/dolphinscheduler" is recommended
resourceUploadPath="/dolphinscheduler"

# if resourceStorageType is HDFS，defaultFS write namenode address，HA you need to put core-site.xml and hdfs-site.xml in the conf directory.
# if S3，write S3 address，HA，for example ：s3a://dolphinscheduler，
# Note，s3 be sure to create the root directory /dolphinscheduler
defaultFS="hdfs://hadoop102:8020"

# resourcemanager port, the default value is 8088 if not specified
resourceManagerHttpAddressPort="8088"

# if resourcemanager HA is enabled, please set the HA IPs; if resourcemanager is single, keep this value empty
yarnHaIps=

# if resourcemanager HA is enabled or not use resourcemanager, please keep the default value; If resourcemanager is single, you only need to replace ds1 to actual resourcemanager hostname
singleYarnIp="hadoop103"

# who have permissions to create directory under HDFS/S3 root path
# Note: if kerberos is enabled, please config hdfsRootUser=
hdfsRootUser="atguigu"

# api server port
apiServerPort="12345"


# install hosts
# Note: install the scheduled hostname list. If it is pseudo-distributed, just write a pseudo-distributed hostname
ips="hadoop102,hadoop103,hadoop104"

# ssh port, default 22
# Note: if ssh port is not default, modify here
sshPort="22"

# run master machine
# Note: list of hosts hostname for deploying master
masters="hadoop102"

# run worker machine
# note: need to write the worker group name of each worker, the default value is "default"
workers="hadoop102:default,hadoop103:default,hadoop104:default"

# run alert machine
# note: list of machine hostnames for deploying alert server
alertServer="hadoop102"

# run api machine
# note: list of machine hostnames for deploying api server
apiServers="hadoop102"

3.6 一键部署DolphinScheduler

1）启动Zookeeper集群

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ zk.sh start

2）一键部署并启动DolphinScheduler

[liumingze@hadoop102 apache-dolphinscheduler-1.3.9-bin]$ ./install.sh

3）查看DolphinScheduler进程

--------- hadoop102 ----------
29139 ApiApplicationServer
28963 WorkerServer
3332 QuorumPeerMain
2100 DataNode
28902 MasterServer
29081 AlertServer
1978 NameNode
29018 LoggerServer
2493 NodeManager
29551 Jps
--------- hadoop103 ----------
29568 Jps
29315 WorkerServer
2149 NodeManager
1977 ResourceManager
2969 QuorumPeerMain
29372 LoggerServer
1903 DataNode
--------- hadoop104 ----------
1905 SecondaryNameNode
27074 WorkerServer
2050 NodeManager
2630 QuorumPeerMain
1817 DataNode
27354 Jps
27133 LoggerServer

4）访问DolphinScheduler UI

DolphinScheduler UI地址为http://hadoop102:12345/dolphinscheduler

初始用户的用户名为：admin，密码为dolphinscheduler123

3.7 DolphinScheduler启停命令

DolphinScheduler的启停脚本均位于其安装目录的bin目录下。

1）一键启停所有服务

./bin/start-all.sh
./bin/stop-all.sh

注意同Hadoop的启停脚本进行区分。

2）启停 Master

./bin/dolphinscheduler-daemon.sh start master-server
./bin/dolphinscheduler-daemon.sh stop master-server

3）启停 Worker

./bin/dolphinscheduler-daemon.sh start worker-server
./bin/dolphinscheduler-daemon.sh stop worker-server

4）启停 Api

./bin/dolphinscheduler-daemon.sh start api-server
./bin/dolphinscheduler-daemon.sh stop api-server

5）启停 Logger

./bin/dolphinscheduler-daemon.sh start logger-server
./bin/dolphinscheduler-daemon.sh stop logger-server

6）启停 Alert

./bin/dolphinscheduler-daemon.sh start alert-server
./bin/dolphinscheduler-daemon.sh stop alert-server

第4章 DolphinScheduler入门

4.1 安全中心配置

安全中心主要有租户管理、用户管理、告警组管理、Worker分组管理、队列管理、令牌管理等功能。安全中心只有管理员账户才有操作权限。

在这里插入图片描述

4.1.1 队列管理

此处的队列对应的是Yarn调度器的资源队列。故队列概念只对跑在Yarn上的任务类型有效。此处创建出的队列，可供后续任务进行选择。需要注意的是，在DolphinScheduler中创建队列，并不会影响到Yarn调度器的队列配置。

此处可不创建队列。

在这里插入图片描述

4.1.2 租户管理

租户对应的是Linux系统用户，是Worker执行任务使用的用户。如果Worker所在节点没有这个用户，Worker会在执行任务时创建这个用户。

此处创建一个liumingze租户，如下图。
在这里插入图片描述

注：

租户编码：对应Worker执行任务所使用的用户名。

租户名称：用于在DolphinScheduler中显示。

队列：该租户提交Yarn任务时的默认队列。

4.1.3 用户管理

用户对应的是DolphinScheduler的用户，用于登录DolphinScheduler。用户分管理员用户和普通用户。默认情况下，管理员只有授权和用户管理等权限，而普通用户只有创建项目，定义工作流、执行工作流等权限。

此处创建一个普通用户liumingze，如下图。

在这里插入图片描述

注：

用户名：DolphinScheduler登录账户

租户：该用户关联的租户

队列：默认为租户所关联的队列。

邮件、手机号：主要用于告警通知。

4.1.4 告警组管理

告警组可包含多名用户，用于指定告警发送对象。

1）创建告警组
在这里插入图片描述

2）增加用户
在这里插入图片描述

4.1.5 Worker分组管理

在任务执行时，可以将任务分配给指定Worker组，最终由该组中的Worker节点执行该任务。默认情况下，所有Worker均位于default组。

此处可不做配置。
在这里插入图片描述

4.16 令牌管理

令牌用于通过接口访问DolphinScheduler各项服务时的用户验证。普通用户通过UI页面访问各项服务时，无需使用令牌。若需将DolphinScheduler与第三方服务进行集成，则需调用其接口，此时需使用令牌。

4.2 项目管理

4.2.1 切换用户

默认不使用管理员用户操作项目和工作流等，故需先切换到普通用户liumingze。

1）admin用户退出

在这里插入图片描述

2）使用liumingze用户登录

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c7c2sEnj-1647411694152)(file:///C:\Users\LIUMIN~1\AppData\Local\Temp\ksohtml\wps6BF.tmp.jpg)]$

4.2.2 创建项目

在这里插入图片描述

4.2.3 查看项目

在这里插入图片描述

4.3 工作流基础配置

下图为工作流配置页面，共包含三个模快，分别为工作流定义、工作流实例和任务实例。

工作流定义：用于定义工作流，包括工作流各节点任务详情及各节点依赖关系等。

工作流实例：工作流每执行一次就会生成一个工作流示例。此处可查看正在运行的工作流以及已经完成的工作流。

任务实例：工作流中的一个节点任务，每执行一次就会生成一个任务实例。此处可用于查看正在执行的节点任务以及已经完成的节点任务。

在这里插入图片描述

4.3.1 工作流定义

工作流要求：工作流需包含三个Shell类型的任务节点，分别是A，B，C。三个任务的依赖关系如下图所示：
在这里插入图片描述

1）创建工作流

在这里插入图片描述

2）配置任务节点

（1）节点A

在这里插入图片描述

（2）节点B
在这里插入图片描述

（3）节点C
在这里插入图片描述

3）配置任务节点的依赖关系
在这里插入图片描述

4）保存工作流定义

在这里插入图片描述

4.3.2 提交执行工作流

1）上线工作流

工作流须上线之后才能执行。处于上线状态的工作流定义不可修改，如需修改，须先下线。
在这里插入图片描述

2）单次运行工作流
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I8AAzJT1-1647411694157)(file:///C:\Users\LIUMIN~1\AppData\Local\Temp\ksohtml\wps6DB.tmp.jpg)]$

3）定时执行工作流

（1）点击定时
在这里插入图片描述

（2）配置定时规则

此处示例为每分钟执行一次
在这里插入图片描述

（3）定时管理
在这里插入图片描述

(4）定时上线
在这里插入图片描述

4.3.3 查看工作流实例

1）查看所有工作流实例
在这里插入图片描述

2）查看工作流执行状态
在这里插入图片描述

4.3.4 查看任务实例

1）查看所有任务实例
在这里插入图片描述

2）查看任务实例日志
在这里插入图片描述

在这里插入图片描述

第5章 DolphinScheduler进阶

5.1 工作流传参

DolphinScheduler支持对任务节点进行灵活的传参，任务节点可通过${参数名}引用参数值。

5.1.1 局部参数

局部参数是指只针对单个任务节点有效的参数。

1）修改helloworld工作流Node-A节点如下
在这里插入图片描述

2）保存工作流并运行，查看Node-A输出日志。

5.1.2 全局参数

全局参数是指针对整个工作流的所有任务节点都有效的参数。

1）修改helloworld工作流每个任务节点如下

（1）节点A配置
在这里插入图片描述

（2）节点B配置
在这里插入图片描述

（3）节点C配置
在这里插入图片描述

2）保存工作流，并设置全局参数
在这里插入图片描述

3）执行工作流，查看三个任务节点输出日志。

5.1.3 系统内置参数

DolphinScheduler提供了一些时间相关的系统参数，方便定时调度使用。

1）系统参数

参数	说明
${system.biz.date}	定时时间前一天，格式为 yyyyMMdd
${system.biz.curdate}	定时时间，格式为 yyyyMMdd
${system.datetime}	定时时间，格式为 yyyyMMddHHmmss

2）时间自定义参数

可通过时间自定义参数，设置任意格式、任意时间的日期。

（1）自定义日期格式

$[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd]

（2）自定义时间

参数	说明
*$[add_months(yyyyMMdd,12N)]**	后 N 年
*$[add_months(yyyyMMdd,-12N)]**	前 N 年
$[add_months(yyyyMMdd,N)]	后 N 月
$[add_months(yyyyMMdd,-N)]	前 N 月
*$[yyyyMMdd+7N]**	后 N 周
*$[yyyyMMdd-7N]**	前 N 周
$[yyyyMMdd+N]	后 N 天
$[yyyyMMdd-N]	前 N 天
$[HHmmss+N/24]	后 N 小时
$[HHmmss-N/24]	前 N 小时
$[HHmmss+N/24/60]	后 N 分钟
$[HHmmss-N/24/60]	前 N 分钟

3）配置示例

若执行的脚本需要一个格式为yyyy-MM-dd的前一天日期的参数，进行如下配置即可。

在这里插入图片描述

5.2 引用依赖资源

有些任务需要引用一些额外的资源，例如MR、Spark等任务需引用jar包，Shell任务需要引用其他脚本等。DolphinScheduler提供了资源中心来对这些资源进行统一管理。

下面以Shell任务为例，演示如何引用资源中心的其他脚本。

1）在资源中心创建脚本
在这里插入图片描述

2）配置Shell任务引用脚本

修改工作流，引用上述脚本
在这里插入图片描述

3）保存工作流并执行，查看对应节点输出日志。

5.3 告警通知

5.3.1 准备电子邮箱账户

如需使用DolphinScheduler的邮件告警通知功能，需要准备一个电子邮箱账号，并启用SMTP服务。

1）点击邮箱账号设置
在这里插入图片描述

2）开启SMTP服务
在这里插入图片描述

3）授权码是邮箱账号在第三方客户端登录的凭证，须谨记。
在这里插入图片描述

5.3.2 配置AlertServer

1）修改AlertServer配置文件/opt/module/dolphinscheduler/conf/alert.properties

[liumingze@hadoop102 ~]$ vim /opt/module/dolphinscheduler/conf/alert.properties

2）配置以下参数

（1）不使用加密协议

#alert type is EMAIL/SMS
alert.type=EMAIL

# mail server configuration
mail.protocol=SMTP
mail.server.host=smtp.qq.com
mail.server.port=25
mail.sender=*********@qq.com
mail.user=*********@qq.com
mail.passwd=*************
# TLS
mail.smtp.starttls.enable=false
# SSL
mail.smtp.ssl.enable=false
mail.smtp.ssl.trust=smtp.exmail.qq.com

（2）使用STARTTLS加密协议

#alert type is EMAIL/SMS
alert.type=EMAIL

# mail server configuration
mail.protocol=SMTP
mail.server.host=smtp.qq.com
mail.server.port=587
mail.sender=*********@qq.com
mail.user=*********@qq.com
mail.passwd=*************
# TLS
mail.smtp.starttls.enable=true
# SSL
mail.smtp.ssl.enable=false
mail.smtp.ssl.trust=smtp.qq.com

（3）使用SSL加密协议

#alert type is EMAIL/SMS
alert.type=EMAIL

# mail server configuration
mail.protocol=SMTP
mail.server.host=smtp.qq.com
mail.server.port=465
mail.sender=*********@qq.com
mail.user=*********@qq.com
mail.passwd=*************
# TLS
mail.smtp.starttls.enable=false
# SSL
mail.smtp.ssl.enable=true
mail.smtp.ssl.trust=smtp.qq.com

注：各邮箱支持的加密协议：https://blog.csdn.net/wustzjf/article/details/52481309

5.3.3 测试

1）运行工作流
在这里插入图片描述

2）选择通知策略

在这里插入图片描述

3）选择通知人

通知人可通过邮箱执行，也可通过通知组指定。
在这里插入图片描述

5.4 工作流失败重跑

若工作流执行到一半失败了，需要重新启动工作流。重新启动时可选择从起点开始执行，也可选择从断点开始执行。

1）模拟失败场景

（1）修改Node-A配置如下
在这里插入图片描述

（2）修改资源中心的test.sh文件如下在这里插入图片描述

2）运行工作流
在这里插入图片描述

3）查看工作流实例
在这里插入图片描述

4）工作失败重跑
（1）从起点开始
在这里插入图片描述

（2）从断点开始
在这里插入图片描述

泽泽野

关注

17
点赞
踩
80

收藏

觉得还不错? 一键收藏
打赏
5
评论
大数据技术之DolphinScheduler

文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 DolphinScheduler集群模式部署**3.1** 集群规划3.2 前置准备工作3.3 解压DolphinS
复制链接

扫一扫