Apache Iceberg
文章平均质量分 93
狄杰丶
单创数据平台负责人
展开
-
Apache Iecberg 从入门到放弃(3) —— 源码系列之Flink读过程分析
背景介绍上一章和带大家了解了一下Iceberg的元数据文件特殊之处,也简单的给大家描述了一下Iceberg是如何从快速定位到数据文件的,上一章将的比较干,因为都是一些理论知识,这一章我们从iceberg-flink模块的源码出发,带大家更加深入的了解Iceberg注意:本次源码分析基于Iceberg 0.11x分支,主要是讲解iceberg-flink模块,其余模块因为暂未深入了解所以会跳过,敬请见谅;并且如果有任何地方讲述不当,请直接指出另外,需要对Iceberg和Flink都一定的基础,否则会出现原创 2021-04-24 18:33:28 · 2237 阅读 · 8 评论 -
Apache Iecberg 从入门到放弃(2) —— Iceberg文件解析
背景介绍上一章我们讲过了如何将Flink和Iceberg结合,演示了一些常用的操作,并且在文章的最后演示了一个比较全的DEMO。主要是讲了一些使用上的内容,对于原理没有太过深入,而既然我们的标题是从入门到放弃,那么必然是要对Iceberg进行深入了解的,不然怎么会放弃呢????所以,今天我们就来对Flink 结合 Iceberg后,写在HDFS上的元数据文件进行解析不过在开始之前先准备一下工作先下载avro-tools点我下载用来分析我们的元数据文件再将我们上一次表中的所有元数据文件下载下来h原创 2021-04-13 19:38:29 · 4037 阅读 · 12 评论 -
Apache Iecberg 从入门到放弃(1) —— Flink X Iceberg On Zeppelin
背景介绍上一章我们聊过了Data Lake House&Iceberg的相关知识,也算是初步入门了。今天再来看看如何将Flink 和 Iceberg结合。Iceberg的官方案例是通过Flink Sql Client来实现的,这个东西的局限性比较大,而且不太好看(这是主要原因),所以我打算用Zeppelin来代替Sql Client。光说不练假把式,开整环境准备开始之前重申一下,我的环境准备是建立在Flink 已经能够正常在Zeppelin上提交到Yarn集群,并且与Hive打通,如果还没原创 2021-04-09 15:34:14 · 1548 阅读 · 1 评论 -
Apache Iecberg 从入门到放弃(0) —— 初步入门
什么是数据湖在开始整活之前,先介绍一下什么是数据湖,来一段亚马逊云上的介绍:数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。将任意结构的数据(Mysql、文本、视频)存储在任意规模的的存储系统中,可以按照原样存储数据(不需要强制绑定schema,也就是不用确定表结构),并进行不同的分析,比如离线实时ETL、机器学习、报表分原创 2021-04-07 20:52:08 · 977 阅读 · 2 评论