自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 不是Azkaban囚徒而是开源Azkaban的介绍【无配置】

一、简介 Azkaban是一个开源的批量工作流任务调度器 用于在一个工作流内以一个特定的顺序运行一组工作和流程 Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流 二、工作流调度系统 1.为什么需要工作流调度系统 1 .一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreducer程序,hive脚本等 2 .各任务单元之间存在时间先后及前后依赖关系 3 .为了很好地组织起这样的复杂执行计划,需要

2020-07-30 11:48:47 240 1

原创 Kafka 入门介绍【一遍了解Kafka内部构造】

概念 Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中所有动作流数据。即Kafka是一个分布式的、可分区的、可复制的消息系统。 Kafka将消息以topic为单位进行归纳 将向Kafka topic发布消息的程序为priducers. 将预定topic并消费信息的程序称为consumer. Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker. producers通过网络将消息发送到Kafka集群,集群向消费者提供消息,如图: Topics 和Log

2020-07-30 10:39:19 148

原创 Apache Sqoop工具使用【原理详解】

Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。 Sqoop架构 Sqoop1:由client端直接接入hadoop,任务通过解析生成对应的mapreduce执行 Sqoop2:服务端部署,运行。提供cli,rest,api,webui等入口,c

2020-07-30 09:45:23 268

原创 Apcah-Flume(水槽)的非官方介绍

Flume(水槽)的概述 Apach Flume是一个分布式的、可靠的、可用的系统,用于有效的收集、聚合和将大量的日志数据从许多不同的源移动到一个集中的数据存储 Apach Flume的使用不仅仅局限于日志数据的聚合。由于数据源是可定制的,Flume可以用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源 它具有鲁棒性和容错性,具有可调的可靠性机制和多种故障转移和恢复机制。它使用了一个简单的、可扩展的数据模型,允许在线分析应用程序 Flume(水槽)的优

2020-07-28 16:24:28 175

原创 Hive知识全解

Hive的三种模式 Local模式:连接到一个In-Memory的数据库Derby,一般用于UnitTest。 单用户模式:通过网络连接到一个数据库中,最常使用到的模式。 多用户模式:远程服务器模式,用于非java客户端访问元数据(metastore),在服务器端启动metastoreServer,客户端利用thift协议通过metastoreServer访问元数据库。 Hive的架构 用户接口主要有三个,Cli,Client,WebGUI,其中最常用到的就是Cli,Cli启动的时候会同时会启

2020-07-28 15:25:42 170

原创 HBase知识全解

HBase简介 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储 HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数

2020-07-28 15:25:18 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除