目录
一、数据清洗调度
1.上传所需jar包

2.job文件写入

二、数据入库且数据分析调度
1.job文件写入

2.上传sql文件

3.打包

三、实现自动化
在开启azkaban调度前将hive数据仓库中的weblog数据库删除
1.开启exec服务

2.激活exec服务
curl -G "localhost: 38978/executor?action=activate" && echo


3.开启web服务

4.登录Azkaban

5.新建一个项目上传压缩包

6.查看项目结构

7.开始运行

8.运行出错
查阅多个资料,需要指定azkaban.native.lib地址

9.重新运行无效
将azkaban.properties文件中azkaban.jobtype.plugin.dir的路径改为绝对路径

10.Mr阶段运行成功

11.Hive阶段检查出代码有误漏写分号
修改重新打包重新运行,运行成功

12.查看结果

本文档详细介绍了使用Azkaban进行数据清洗、入库及分析的自动化流程,包括上传jar包、编写job文件、执行SQL、配置自动化服务等步骤,并在遇到问题时进行了错误排查与修复,最终实现了Mr和Hive阶段的成功运行。
359

被折叠的 条评论
为什么被折叠?



