数据湖
文章平均质量分 95
新入职公司让做hudi的技术调研
潘小磊
功不唐捐,玉汝于成
展开
-
数据湖技术之数据中心 Hudi案例实战
本案例基于Flink SQL 与Hudi整合,将MySQL数据库业务数据,实时采集存储到Hudi表中,使用Presto和Flink SQL分别进行离线查询分析和流式查询数据,最后报表存储到MySQL数据库,使用FineBI整合进行可视化展示。1、MySQL数据库:传智教育客户业务数据存储及离线实时分析报表结果存储,对接可视化FineBI工具展示。2、Flink SQL 引擎使用Flink SQL中CDC实时采集MySQL数据库表数据到Hudi表,此外基于Flink SQL Connector整合Hud原创 2022-09-30 10:00:44 · 732 阅读 · 0 评论 -
数据湖技术之社交数据Hudi案例实战
1、Apache Flume:分布式实时日志数据采集框架由于业务端数据在不断的在往一个目录下进行生产, 我们需要实时的进行数据采集, 而flume就是一个专门用于数据采集工具,比如就可以监控某个目录下文件, 一旦有新的文件产生即可立即采集。2、Apache Kafka:分布式消息队列Flume 采集过程中, 如果消息非常的快, Flume也会高效的将数据进行采集, 那么就需要一个能够快速承载数据容器, 而且后续还要对数据进行相关处理转换操作, 此时可以将flume采集过来的数据写入到Kafka中,进行消原创 2022-09-29 14:46:05 · 767 阅读 · 0 评论 -
数据湖技术之 Hudi 集成 Flink
Flink集成Hudi时,本质将集成jar包:hudi-flink-bundle_2.12-0.9.0.jar,放入Flink 应用CLASSPATH下即可。Flink SQLConnector支持Hudi作为Source和Sink时,两种方式将jar包放入CLASSPATH路径:● 方式一:运行Flink SQL Client命令行时,通过参数【-j xx.jar】指定jar包● 方式二:将jar包直接放入Flink软件安装包lib目录下【$FLINK_HOME/lib】原创 2022-09-29 10:02:06 · 752 阅读 · 0 评论 -
数据湖技术之Hudi 集成 Spark
数据湖框架Hudi,从诞生之初支持Spark进行操作,后期支持Flink,接下来先看看与Spark整合使用,并且在0.9.0版本中,提供SparkSQL支持,编写DDL和DML操作数据。Hudi数据湖框架,开始与Spark分析引擎框架整合,通过Spark保存数据到Hudi表,使用Spark加载Hudi表数据进行分析,不仅支持批处理和流计算,还可以集成Hive进行数据分析,安装大数据其他框架:MySQL、Hive、Zookeeper及Kafka,便于案例集成整合使用。采用tar方式安装MySQL数据库,具体原创 2022-09-27 16:11:19 · 1344 阅读 · 2 评论 -
数据湖技术之Hudi 核心概念
Hudi数据湖框架的基本概念及表类型,属于Hudi框架设计原则和表的设计核心。文档:https://hudi.apache.org/docs/concepts.html。原创 2022-09-27 15:16:41 · 634 阅读 · 0 评论 -
数据湖技术之快速体验 Hudi
Hudi数据集的组织目录结构与Hive表示非常相似,一份数据集对应这一个根目录。数据集被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件。在根目录下,每个分区都有唯一的分区路径,每个分区数据存储在多个文件中。每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时,多个文件共享相同的fileId,但会有不同的commit。每条记录由记录的key值进行标识并映射到一个fileId。原创 2022-09-23 16:26:45 · 422 阅读 · 0 评论 -
数据湖技术之 Hudi 框架概述
Data lake这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是: 把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式。数据库和数据仓库会以关系型的方式来设计存储、处理数据。但数据湖的设计理念是相反的,数据仓库是为了保障数据的质量、数据的一致性、数据的重用性等对数据进行结构化处理。数据湖是一个数据存储库,可以使用数据湖来存储大量的原始数据。原创 2022-09-23 16:01:40 · 687 阅读 · 0 评论