大数据技术——实战项目:广告数仓(第七部分)数仓工作流调度实操

目录

第12章 广告数仓全流程调度

12.2 新数据生成

12.2.1 广告监测日志

12.2.2 广告管理平台数据

12.3 工作流调度实操

12.3.1 DolphinScheduler集群模式

12.3.2 DolphinScheduler单机模式


第12章 广告数仓全流程调度

12.1 调度工具Dolphinscheduler

DolphinScheduler的安装和使用可参考以下文档。

大数据技术——DolphinScheduler的集群部署-CSDN博客

12.2 新数据生成

12.2.1 广告监测日志

1)启动日志采集通道,包括KafkaFlume

(1)启动Zookeeper

[atguigu@hadoop102 ~]$ zk.sh start

(2)启动Kafka

[atguigu@hadoop102 ~]$ kf.sh start

(3)启动Flume

[atguigu@hadoop102 ~]$ ad_f1.sh start

[atguigu@hadoop102 ~]$ ad_f2.sh start

2)修改日志模拟器配置文件

        修改hadoop102和hadoop103两台节点中的/opt/module/ad_mock/nginxLogGen.setting文件,修改模拟数据时间参数如下。

#生成数据的开始时间

startTime = 2023-01-08 00:00:00

#生成数据的结束时间

endTime = 2023-01-09 00:00:00

3)执行日志生成脚本

[atguigu@hadoop102 ~]$ ad_mock.sh

4)观察HDFS上是否有2023-01-08的日志数据生成

12.2.2 广告管理平台数据

广告管理平台的数据主要作为维度信息,此处不再生成或修改,后续直接全量同步即可。

12.3 工作流调度实操

由于DolphinScheduler集群模式启动进程较多,对虚拟机内存要求较高。故下面提供两种方式,可根据虚拟机内存情况进行选择。

12.3.1 DolphinScheduler集群模式

1)启动DolphinScheduler

[atguigu@hadoop102 dolphinscheduler]$ bin/start-all.sh

2)使用普通用户登录

3)向DolphinScheduler资源中心上传工作流所需脚本

(1)创建文件夹

(2)上传工作流所需脚本

将工作流所需的所有脚本上传到资源中心ad_scripts路径下,结果如下。

4)向DolphinScheduler资源中心上传工作流所需jar

(1)创建文件夹

(2)上传工作流所需脚本

注:jar包名不能过长,若上传失败,请改名重试。

5)向DolphinSchedulerWorkerServer节点分发脚本依赖的组件

由于工作流要执行的脚本需要调用Hive、DataX等组件,故在DolphinScheduler的集群模式下,需要确保每个WorkerServer节点都有脚本所依赖的组件。

[atguigu@hadoop102 ~]$ xsync /opt/module/hive/

[atguigu@hadoop102 ~]$ xsync /opt/module/spark/

[atguigu@hadoop102 ~]$ xsync /opt/module/datax/

6)创建所需环境

(1)切换到admin用户

(2)点击环境管理/创建环境 

(3)配置环境

注:具体环境变量如下,其中的SPARK_HOME1SPARK_HOME2供后续的SPARK类型的任务使用。

export HADOOP_HOME=/opt/module/hadoop
export HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop
export SPARK_HOME=/opt/module/spark
export SPARK_HOME1=/opt/module/spark
export SPARK_HOME2=/opt/module/spark
export JAVA_HOME=/opt/module/jdk1.8.0_212
export HIVE_HOME=/opt/module/hive
export DATAX_HOME=/opt/module/datax

export PATH=$PATH:$HADOOP_HOME/bin:$SPARK_HOME/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$DATAX_HOME/bin

6)创建工作流

(1)切换到普通用户

(2)创建项目ad

(3)在ad项目下创建工作流

(4)各任务节点配置如下

①ad_mysql_to_hdfs_full

②ad_hdfs_to_ods

③ad_ods_to_dim

④ad_ods_to_dwd

⑤hive_to_clickhouse

(5)各节点依赖关系如下

(6)保存工作流

注:定时调度时,全局参数值应设置为$[yyyy-MM-dd-1]或者空值。

7)上线工作流

8)运行工作流

12.3.2 DolphinScheduler单机模式

1)启动DolphinScheduler

[atguigu@hadoop102 dolphinscheduler]$ bin/dolphinscheduler-daemon.sh start standalone-server

2)其余操作

其余操作与集群模式基本一致,其中分发Hive、Spark、DataX这一步可以省略。

前面章节:

大数据项目——实战项目:广告数仓(第一部分)-CSDN博客

大数据项目——实战项目:广告数仓(第二部分)-CSDN博客

大数据技术——实战项目:广告数仓(第三部分)-CSDN博客

大数据技术——实战项目:广告数仓(第四部分)-CSDN博客

大数据技术——实战项目:广告数仓(第五部分)-CSDN博客

大数据技术——实战项目:广告数仓(第六部分)-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值