使用azkaban调度spark任务

最新推荐文章于 2024-04-16 13:00:13 发布

尚硅谷铁粉

最新推荐文章于 2024-04-16 13:00:13 发布

阅读量319

点赞数

分类专栏：大数据文章标签： spark big data

原文链接：http://www.atguigu.com

版权

104 篇文章 11 订阅

订阅专栏

一. 简介
该部份内容可参考官方文档：http://azkaban.github.io/azkaban/docs/latest/#overviewgithub

azkaban由三部分构成：

Relational Database(Mysql)
Azkaban Web Server
Azkaban Executor Server

Relational Database(Mysql)
azkaban将大多数状态信息都存于Mysql中,Azkaban Web Server 和 Azkaban Executor Server也需要访问DB。

Azkaban Web Server
提供了Web UI，是azkaband的主要管理者，包括 project 的管理，认证，调度，对工作流执行过程的监控等。大数据培训

Azkaban Executor Server
调度工作流和任务，记录工作流任务的日志，因此将AzkabanWebServer和AzkabanExecutorServer分开，主要是由于在某个任务流失败后，能够更方便的将重新执行。并且也更有利于Azkaban系统的升级。

可调度任务类型
linux命令
脚本
java程序
hadoop MR
spark
flink
hive
建立工做
建立工做任务
建立.job为后缀的文件，type是工做任务类型执行会输出 Hello World

vim hello.job
type=command
command=echo "Hello World"

建立工作流
两个工做任务，经过dependencies进行关联

vim foo.job
type=command
command=echo foo

vim bar.job
type=command
dependencies=foo
command=echo bar

工作流如下:
将会先调用foo再调用bar。

二. 调度Spark任务Demo
建立一个新的project

编写代码写一段简单的Spark代码，将程序打包

package com.zxl
import org.apache.spark.{SparkConf, SparkContext}

object AzkabanTest extends App{
val conf = new SparkConf()
.setMaster("local[2]")
.setAppName("azkabanTest")
val sc = new SparkContext(conf)

val data = sc.parallelize(1 to 10)
data.map{_ * 2}.foreach(println)
}

编写调度命令

vim test.job
type=command
command=/usr/install/spark/bin/spark-submit --class com.zxl.AzkabanTest test-1.0-SNAPSHOT.jar

将这两个文件以zip的形式打包在一块儿

zip -r xxx.zip azkabanTest

上传工程

目前azkaban只支持zip包，其中要包括.job文件以及一些需要的工程和文件。

设置离线任务执行周期

若是需要的话能够设置离线任务的执行周期（相似于cron的功能）

任务通知

能够设置任务完成或失败进行邮箱通知等操作。

一些界面

主界面

任务log详情

定时任务调用状况图

关注