Azkaban基础学习

一、概述

1.什么是 Azkaban

2.为什么需要工作流调度系统

3.Azkaban特点

4.常见工作流调度系统

5.Azkaban的架构

二、Azkaban安装部署

1.安装前准备

2. 安装Azkaban

3.生成密钥对和证书

4.时间同步配置

5.配置文件

6.启动Executor服务器

7.启动Web服务器

三、Azkaban实战

Azkaban 内置的任务类型支持 command、java

1.单一job案例

2.邮件通知配置

3.多job工作流案例

4.Java操作任务

5.HDFS操作任务

6.MapReduce任务

7.Hive脚本任务

扩展:传参

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java及⼤数据学习路线 1.Java学习路线 1.1JavaSE Java基础 Java8新特性 数据库MySQL与SQL语⾔ JDBC 1.2JavaWeb HTML基础与CSS JavaScript DOM 与 jQuery XML与Tomcat HTTP协议 服务器端组件Servlet JSP EL表达式 JSTL 会话控制Cookie和Session 服务器端组件Filter 服务器端组件Listener 国际化 异步数据传输框架Ajax ⽂件的上传下载 1.3JavaEE框架 系统整体分层解耦框架spring 轻量级Web框架springmvc 轻量级持久层框架mybatis 服务器操作系统Linux 内存数据库Redis 项⽬架构、jar包管理⼯具Maven 1.4JavaEE⾼级 SVN/IDEA开发⼯具 分布式版本管理⼯具Git与Github Mysql⾼级 Mycat实现MySQL的分布式、分库分表、读写分离 Nginx反向代理、负载均衡、动静分离 JVM内存模型、参数调优 JUC线程⾼级 分布式架构注册中⼼Zookeeper 虚拟化应⽤容器Docker 全⽂检索引擎ElasticSearch 消息队列RabbitMQ 前端VUE/ES6 2⼤数据学习路线 2.1JavaSE Java基础 Java8新特性 数据库MySQL与SQL语⾔ JDBC 2.2JavaEE核⼼ HTML、CSS、JS、XML Tomcat服务器、HTTP协议、JSP、Servlet组件 EL表达式、会话控制、⽂件的上传下载 Filter组件、Listener组件、异步传输框架AJax 系统整体分层解耦框架spring 轻量级Web框架springmvc 轻量级持久层框架mybatis 项⽬架构、jar包管理⼯具Maven 服务器操作系统Linux 内存数据库Redis Mysql⾼级 命令解析器Shell 2.3Hadoop⽣态体系 ⼤数据存储框架Hadoop 分布式服务管理框架zookeeper hadoop⾼可⽤HA 数据仓库hive 数据查询框架impala+kudu+clouderManager ⽇志采集传输框架flume/idea 分布式发布-订阅消息系统Kafka+监控器kafkaManager+kafkaMonitor 分布式⾮关系型数据库Hbase+Hbase⼆级索引创建⼯具Phoenix 任务调度框架Azkaban 数据查询框架Kylin+druid ⼤数据图形化⼯具Hue 分布式版本管理⼯具Git与Github 2.4 Spark/Flink⽣态体系 全⽂检索+⽇志搜集+数据可视化ELK 多范式编程语⾔Scala SparkCore/Spark SQL/Spark Streaming/Spark mlib Spark内核和优化 JVM/JUC python 数据结构 ⼤数据框架Flink 3 Java基础图谱 4 软件开发介绍 软件开发 软件,即⼀系列按照特定顺序组织的计算机数据和指令的集合。有系统软 件和应⽤软件之分。 4.1 ⼈机交互⽅式 图形化界⾯(Graphical User Interface GUI)这种⽅式简单直观,使⽤ 者易于接受,容易上⼿操作。 命令⾏⽅式(Command Line Interface CLI):需要有⼀个控制台,输 ⼊特定的指令,让计算机完成⼀些操作。较为⿇烦,需要记录住⼀些 命令。 Pascal之⽗Nicklaus Wirth: "Algorithms+Data Structures=Programs" 4 .2常⽤的DOS命令 dir : 列出当前⽬录下的⽂件以及⽂件夹 md : 创建⽬录 rd : 删除⽬录 cd : 进⼊指定⽬录 cd… : 退回到上⼀级⽬录 cd: 退回到根⽬录 del : 删除⽂件 exit : 退出 dos 命令⾏ 补充:echo javase>1.doc
⼤数据⼯程师学习计划 申明:本⽂旨在为普通程序员(Java程序员最佳)提供⼀个⼊门级别的⼤数据技术学习路径,不适⽤于⼤数据⼯程师的进阶学习,也不适⽤ 于零编程基础的同学。 前⾔ ⼀、背景介绍 本⼈⽬前是⼀名⼤数据⼯程师,项⽬数据50T,⽇均数据增长20G左右,个⼈是从Java后端开发,经过3个⽉的业余⾃学成功转型⼤数据⼯ 程师。 ⼆、⼤数据介绍 ⼤数据本质也是数据,但是⼜有了新的特征,包括数据来源⼴、数据格式多样化(结构化数据、⾮结构化数据、Excel⽂件、⽂本⽂件 等)、数据量⼤(最少也是TB级别的、甚⾄可能是PB级别)、数据增长速度快等。 如果你对⼤数据开发感兴趣,想系统学习⼤数据的话,可以加⼊⼤数据技术学习交流扣群:数字4583+数字45782,私信管理员即可免费 领取开发⼯具以及⼊门学习资料 针对以上主要的4个特征我们需要考虑以下问题: 数据来源⼴,该如何采集汇总?对应出现了Sqoop,Cammel,Datax等⼯具。 数据采集之后,该如何存储?对应出现了GFS,HDFS,TFS等分布式⽂件存储系统。 由于数据增长速度快,数据存储就必须可以⽔平扩展。 数据存储之后,该如何通过运算快速转化成⼀致的格式,该如何快速运算出⾃⼰想要的结果? 对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很⼤,所以出现了Hive,Pig等将SQL转 化成MapReduce的解析引擎; 普通的MapReduce处理数据只能⼀批⼀批地处理,时间延迟太长,为了实现每输⼊⼀条数据就能得到结果,于是出现了Storm/JStorm这 样的低时延的流式计算框架; 但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于 管理,所以出现了Spark这样的⼀站式的计算框架,既可以进⾏批处理,⼜可以进⾏流处理(实质上是微批处理)。 ⽽后Lambda架构,Kappa架构的出现,⼜提供了⼀种业务处理的通⽤架构。 为了提⾼⼯作效率,加快运速度,出现了⼀些辅助⼯具: Ozzie,azkaban:定时任务调度的⼯具。 Hue,Zepplin:图形化任务执⾏管理,结果查看⼯具。 Scala语⾔:编写Spark程序的最佳语⾔,当然也可以选择⽤Python。 Python语⾔:编写⼀些脚本时会⽤到。 Allluxio,Kylin等:通过对存储的数据进⾏预处理,加快运算速度的⼯具。 以上⼤致就把整个⼤数据⽣态⾥⾯⽤到的⼯具所解决的问题列举了⼀遍,知道了他们为什么⽽出现或者说出现是为了解决什么问题,进⾏学 习的时候就有的放⽮了。 正⽂ ⼀、⼤数据相关⼯作介绍 ⼤数据⽅向的⼯作⽬前主要分为三个主要⽅向: ⼤数据⼯程师 数据分析师 ⼤数据科学家 其他(数据挖掘等) ⼆、⼤数据⼯程师的技能要求 附上⼤数据⼯程师技能图: 必须掌握的技能11条 Java⾼级(虚拟机、并发) Linux 基本操作 Hadoop(HDFS+MapReduce+Yarn ) HBase(JavaAPI操作+Phoenix ) Hive(Hql基本操作和原理理解) Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ) 辅助⼩⼯具(Sqoop/Flume/Oozie/Hue等) ⾼阶技能6条 机器学习算法以及mahout库加MLlib R语⾔ Lambda 架构 Kappa架构 Kylin Alluxio 三、学习路径 假设每天可以抽出3个⼩时的有效学习时间,加上周末每天保证10个⼩时的有效学习时间; 3个⽉会有(213+4210)3=423⼩时的学习时间。 第⼀阶段(基础阶段) 1)Linux学习(跟鸟哥学就ok了)-----20⼩时 Linux操作系统介绍与安装。 Linux常⽤命令。 Linux常⽤软件安装。 Linux⽹络。 防⽕墙。 Shell编程等。 2)Java ⾼级学习(《深⼊理解Java虚拟机》、《Java⾼并发实战》)---30⼩时 掌握多线程。 掌握并发包下的队列。 了解JMS。 掌握JVM技术。 掌握反射和动态代理。 3)Zookeeper学习 Zookeeper分布式协调服务介绍。 Zookeeper集群的安装部署。 Zookeeper数据结构、命令。 Zookeeper的原理以及选举机制。 第⼆阶段(攻坚阶段) 4)Hadoop (《Hadoop 权威指南》)---80⼩时 HDFS HDFS的概念和特性。 HDFS的shell操作。 HDFS的⼯作机制。 HDFS的Java应⽤开发。 MapReduce 运⾏WordCount⽰例程序。 了解MapReduce内部

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值