离线阶段第十一天
oozie:单独使用不太好用。与hue整合之后,就比较好用了
基础环境增强:hadoop的 HA 不用做了。如何在现有的基于伪分布式环境的基础上,转换成HA的环境
CM:在页面上点点配配就可以完成所有用到的大数据软件的安装。做不了
oozie的基本介绍
与azkaban的功能类似。任务调度的框架
oozie的定义语言都是使用xml编写的。里面都是由一个个的action组成的,一个action就是我们一个需要调度的任务。每一个action的执行,都是启用一个MR的程序来进行执行的
oozie当中的组件:
workflow:工作流定义,就是用于定义我们的调度任务。一个workflow里面有很多的action组成,一个aciton就是一个要执行的任务
Coordinator:协作器。用于定时执行我们的workflow。说白了就是一个定时组件,用于定时的执行我们的workflow
bundle:捆绑器,用于将我们的多个coordinator 捆绑到一起去执行。基本上没用
解压 oozie-hadooplibs-4.1.0-cdh5.14.0.tar.gz 到与oozie安装目录的平行路径
oozie的安装目录
/export/servers/oozie-4.1.0-cdh5.14.0
/export/servers/abc
/export/xxx
oozie调度执行shell脚本
job.properties 定义了一些变量。需要保存在linux本地
workflow.xml 定义我们需要执行的任务。一个workflow都是由一个个的action组成的,一个action就是我们一个需要调度的任务。需要上传到hdfs上面去
配置我们workflow.xml文件的路径
hdfs://node01:8020/user/root/oozie_works/shell
oozie当中的coordinator 定时器的任务组件
可以通过coordinator 这个组件,来定时的执行我们的workflow.
任何一个任务调度的框架,都会支持定时的执行
任务的定时主要有两种方式:
第一种方式:基于数据的定时任务执行。有了数据就执行我们的定时任务,这种方式没人用
第二种:基于时间的定时任务的执行。通过配置我们的时间,定时的去执行我们的任务。例如我们可以定时晚上两点钟去执行,也可以定时每隔五分钟执行一次等等
coordinator 也是通过xml语言来定义执行的
如果不适用hue,就不要使用oozie了
如果hue与oozie整合之后,我们就可以 通过浏览器页面拖拉拽的方式就可以实现我们的定时任务的定时执行
离线阶段框架梳理:
zookeeper + hadoop + hive + flume + azkaban+ sqoop + impala + oozie + hue
基础框架 zookeeper + hadoop
数据采集: flume
离线处理第一套框架:azkaban + hive + sqoop 已经比较陈旧了
离线处理第二套框架: oozie + impala + hue + sqoop 来处理我们离线的任务。我们可以通过托拉拽的方式,实现我们离线任务的执行以及离线任务定时执行
基于已有的伪分布式环境,如何转换成HA的环境,并且保证hdfs上面的数据不丢失
为了解决我们所有的大数据软件的安装的烦恼,我们可以使用CM图形化的界面的工具来安装管理我们的集群
以后安装大数据软件,直接在页面上点一点就行了