Hadoop
zhyjtwgsnwxhn
这个作者很懒,什么都没留下…
展开
-
创建java maven 项目实现ES数据读取,到集群spark 引擎进行数据加工,推数据到Kafka
1.大概实现描述: 1.1.从ES读取数据到hive库 1.2.数据在hive库,用sparksql引擎进行数据处理 1.3.数据推送到kafka 2.准备工作 2.1.安装java相关环境 2.2.保证连接ES网络连通 2.3.通过SparkSession spark 进行数据连接 3.准备相关的用到的包和pom.xml 配置: <dependencies> <dependency> <groupId>org.apache.s..原创 2020-11-27 11:43:56 · 423 阅读 · 1 评论 -
Hadoop 上的HIVE,HBase和Pig Latin 数据流编程语言
hive是基于hadoop的数据仓库。Hive是一种建立在Hadoop文件系统上的数据仓库架构,对存储在HDFS中的数据进行分析和管理工具。 HBase是一个分布式的、面向列的开源数据库。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Had转载 2015-11-11 18:38:35 · 860 阅读 · 0 评论 -
大数据名词记录
ActiveMQ 是Apache出品,最流行的,能力强劲的开源消息总线。 Dubbo是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和 Spring框架无缝集成。 Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置...转载 2018-05-07 10:03:00 · 234 阅读 · 0 评论 -
Azkaban介绍
Azkaban 一、为什么需要工作流调度器 二、工作流调度实现方式 三、常见工作流调度系统 四、各种调度工具对比 五、Azkaban 与 Oozie 对比 功能 工作流定义 工作流传参 定时执行 资源管理 工作流执行 工作流管理 六、Azkaban 介绍 七、azka...转载 2018-08-08 10:56:01 · 334 阅读 · 0 评论 -
Azkaban的使用
Azkaban简介 Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 Azkaban的有以下几点特性: 提供功能清晰,简单易用的Web UI界面 提供job配置文件快速建立任务和任务之间的依赖关系 提供...转载 2018-08-08 11:08:09 · 275 阅读 · 1 评论