调度平台架构
大数据任务调度是大数据处理的重要环节,Azkaban和Airflow是目前主流的一款开源的,分布式任务调度框架。与所有其他调度相比,Airflow是一种功能超强的引擎,你可以使用插件来支持各种作业。鉴于全网资料参差不齐,实战资料不是很多,大部分为官方英文文档为主,故专门设置该专栏帮助大家学习该框架。
清平乐的技术博客
学如逆水行舟,不进则退。
展开
-
Azkaban 用户权限管理
绝大多数应用系统都会有用户和权限管理的功能,Azkaban当然也有,用户可用于登录页面,权限则可以控制当前用户可以看到哪些project,以及对他的操作范围进行控制。在azkaban中${AZKABAN_HOME}/conf/azkaban.properties中的以下配置文件来进行用户的管理。user.manager.class=azkaban.user.XmlUserManageruse...原创 2020-03-27 16:58:56 · 733 阅读 · 0 评论 -
Airflow性能优化(airflow.cfg配置)
配置文件默认在$AIRFLOW_HOME目录下,vim airflow.cfg# dag存放目录dags_folder = /hadoop/airflow/dags# 日志存放目录base_log_folder = /hadoop/airflow/logs# 设置web端Configuration不显示配置信息expose_config = False#控制 Airflow worker 可以并行任务实例的数量parallelism=15# 单个DAG最大并发数# 默认是16,改原创 2020-10-20 11:10:41 · 2259 阅读 · 0 评论 -
Airflow官方文档整理
Airflow官方文档整理一、快速开始# airflow needs a home, ~/airflow is the default,# but you can lay foundation somewhere else if you prefer# (optional)export AIRFLOW_HOME=~/airflow# install from pypi using pippip install apache-airflow# 初始化数据库airflow initdb原创 2020-10-17 11:34:53 · 1304 阅读 · 0 评论 -
Airflow控制任务并发数量
控制dag的并发数量,这里提供两种方式,一种是修改配置文件,一种是在创建dag的时候单独添加参数。下面针对这两种方式分别进行讲解原创 2020-10-12 11:12:24 · 2351 阅读 · 0 评论 -
Airflow创建DAG和执行步骤
Airflow的dag文件都是用python脚本编写,总共可以分为5个步骤,本文会对这5个步骤进行详细说明。(全网唯一)原创 2020-09-28 15:03:12 · 3063 阅读 · 0 评论 -
Airflow调度工具简介和使用
Airflow是airbnb家的基于DAG(有向无环图)的任务管理系统, 最简单的理解就是一个高级版的crontab。它解决了crontab无法解决的任务依赖问题。本文将介绍 Airflow 这一款优秀的调度工具。主要包括 Airflow 的服务构成、Airflow 的 Web 界面、DAG 配置、常用配置等。一、什么是 AirflowAirflow 是 Airbnb 开源的一个用 Python 编写的调度工具。于 2014 年启动,2015 年春季开源,2016 年加入 Apache 软件基金会的孵原创 2020-05-21 16:01:32 · 1036 阅读 · 0 评论 -
Azkaban安装部署(实战优化)
Azkaban是一个Hadoop workflow定时调度工具,它解决了多个Hadoop任务单元之间的前后依赖关系。它提供了十分友好的用户界面,使用简单,容易上手。一、环境准备服务器环境:CentOS 7.2数据库:MySQL5.7(已安装配置)Hadoop版本:CDH-5.3.1(已配置hive)Azkaban版本:azkaban-web-server-2.5.0azkaban-...原创 2020-03-27 15:09:31 · 823 阅读 · 0 评论 -
Navicat设置定时任务调度
将表数据从一个库同步到另一个库(数据分发),目前尝试的方式有使用Kettle去抽数;用sqoop抽取;用navicat自带的同步工具这里对nivicat设置定时进行讲解。将数据从一个数据传输到另一个数据库(MySQL to MySQL) ,eg: 将 10.11.22.33:3306/demo1 数据库中的 student 表 传输到 10.22.33.55:3306、demo2 数据库中1....原创 2020-01-11 10:26:27 · 2336 阅读 · 2 评论 -
Hadoop原理之_Azkaban任务调度
一、任务调度概述1. 为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。 例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要...原创 2020-01-18 14:56:14 · 1044 阅读 · 0 评论 -
大数据定时任务调度常用工具
一、crontab1.概述crontab是一个命令,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。用户所建立的crontab文件中,每一行代表一项任务,每行的每个字段代表一项设置,共分六个字段,前五段是时间设定段,第六段是要执行的命令段# For details see man 4 crontabs# Example ...原创 2020-04-15 17:38:14 · 2518 阅读 · 1 评论