![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 64
疯 狂 的 萝 卜
人要不发疯,一辈子难成功!
展开
-
数据湖存储格式Hudi原理与实践
今天给大家分享阿里云DLA团队技术专家李伟所做的分享《数据湖存储格式Hudi原理yu .pdf》,对数据湖及Apache Hudigan兴趣的伙伴别错过啦!(到省时查报告小程序中搜索“数据湖”、“数据治理”、“数字化”、“推荐”等关键词可以下载海量推荐相关干货资料)本次分享共包含如下五大部分:1、数据湖架构演进;2、Apache Hudi的价值;3、Apache Hudi核心技术;4、阿里云DLA基于Hudi最佳实践;5、开源数据湖存储格式对比。本PPT已收录到小程序省时查报告中转载 2021-12-06 11:27:25 · 589 阅读 · 0 评论 -
大数据调度工具oozie详细介绍
背景:之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。在此介绍一下oozie~注:我的 Oozie server version:[4.1.0 - CDH 5.13.0]一、官网介绍首先看官网首页介绍...转载 2019-08-21 20:55:04 · 1243 阅读 · 0 评论 -
Flume介绍以及实战应用
1.1 Flume介绍前言:在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1.1.1概述1.) Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。2. )Flume可以采集...转载 2019-06-11 23:39:09 · 236 阅读 · 0 评论 -
Kafka(分布式发布-订阅消息系统)
一、简介Apache Kafka是分布式发布-订阅消息系统,在kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队...转载 2019-06-11 23:32:07 · 730 阅读 · 1 评论 -
Hadoop相关知识整理系列之:HBase基本架构及原理
1. HBase框架简单介绍HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFi...转载 2019-05-12 00:03:19 · 146 阅读 · 0 评论 -
Spark常用算子总结大全
park的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类...转载 2019-05-11 15:24:00 · 1406 阅读 · 0 评论 -
HIVE和HBASE区别
HIVE和HBASE区别1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。Apache...转载 2019-05-11 14:53:49 · 94 阅读 · 0 评论 -
浅谈数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库...转载 2019-05-20 00:25:25 · 2358 阅读 · 0 评论