使用oozie实现spark定时调度和spark依赖

最新推荐文章于 2024-08-06 05:30:00 发布

yufan79

最新推荐文章于 2024-08-06 05:30:00 发布

阅读量9.9k

点赞数 2

分类专栏： oozie 文章标签： hadoop 任务调度 spark

本文链接：https://blog.csdn.net/zhangfan1994/article/details/76829953

版权

本文介绍了如何利用oozie在Hadoop环境中创建一个包含Spark任务的工作流，并设置了定时调度。工作流XML文件定义了任务依赖，而协调器XML则关注任务执行的频率，以UTC时区为基准。通过调整job.properties文件中的属性，可以控制任务的启动和结束。使用oozie提供的命令行工具，可以方便地运行和终止作业。

摘要由CSDN通过智能技术生成

oozie是针对hadoop的任务调度框架，因为spark on yarn的模式是基于hadoop的任务调度模块yarn来做的，所以spark on yarn模式可以利用oozie的定时模块和任务依赖调度模块，实现按时按步骤的执行spark的job，下面就简单介绍一下刚使用oozie时容易忽略和比较重要的地方。
最简单来讲，一个简单依赖关系的ooziejob，需要一个提交到hdfs上的xml用来解析properties文件，一个properties对应一个oozie的job，一个jar包用来执行任务。
定时任务则额外需要一个xml用来指定定时规则。
下面就以最简配置举一个简单的spark定时任务和依赖例子

workflow.xml

">    <start to="spark-SparkOozieAction1"/>  
    <kill name="Kill">  
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>  
    </kill>  
    <action name="spark-SparkOozieAction1">
        <spark xmlns="uri:oozie:spark-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <master>${jobmaster}</master>
            <mode>${jobmode}</mode>
            <name>${jobname1}</name>
            <class>${jarclass1}</class>
            <jar>${jarpath1}</jar>
            <sp