湖仓
文章平均质量分 73
湖仓相关分享,包括不限于Hudi, Iceberg等
修破立生
专注大数据技术领域,持续学习和分享者
展开
-
Flink CDC 系列(11)—— MySQL 数据入湖 Hudi,流式查询Hudi
本文如何介绍通过Flink CDC增量读取MySQL binlog数据写入Hudi,并以增量的方式读取Hudi的数据原创 2022-04-25 05:00:00 · 1084 阅读 · 0 评论 -
Flink CDC 系列(10)—— MySQL 数据入湖 Hudi
本文介绍了Flink CDC 读取 MySQL 数据,通过Flink SQL 写入到 Hudi 的过程,并通过实战案例演示了对 MySQL 的 Insert/Update/Delete 操作在 Hudi 的还原。原创 2022-03-26 05:00:00 · 1240 阅读 · 1 评论 -
hudi-flink 模块源码编译
拉取源码本文以 0.10.1 的源码为例$ git clone -b release-0.10.1 https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 247886, done.remote: Counting objects: 100% (29939/29939), done.remote: Compressing objects: 100% (4148/4148), done原创 2022-03-25 05:00:00 · 1278 阅读 · 0 评论 -
Flink CDC 系列(9)—— MySQL 数据入湖 Iceberg,Flink 流式读取 Iceberg
本文介绍了Flink CDC 读取MySQL数据实时写到 Iceberg,Flink SQL 以Streaming的方式读取Iceberg的数据。原创 2022-03-24 05:30:00 · 2821 阅读 · 1 评论 -
Flink CDC 系列(8)—— MySQL 数据入湖 Iceberg
本文演示了 Flink CDC 读取 MySQL 数据,并通过 Flink SQL 写入到 Iceberg 的过程。包含了 Insert/update/delete 的操作。原创 2022-03-23 04:45:00 · 1627 阅读 · 0 评论 -
Hudi 的写操作类型
本文介绍了 Hudi 的写操作类型,包括 UPSERT, INSERT, BULK_INSERT, DELETE, 并介绍了相关的应用场景原创 2022-03-03 05:15:00 · 2174 阅读 · 0 评论 -
什么是 Hudi Timeline (时间线)
本文介绍了 Hudi Timeline(时间线)的核心概念,Instant action, Instant time, state。并举例进行说明原创 2022-03-02 05:15:00 · 1796 阅读 · 0 评论 -
Apache Iceberg 源码编译 iceberg-flink-runtime Jar 文件
本文介绍了如何对 Apache Iceberg 的源码进行编译出特定版本的 iceberg-flink-runtime Jar 文件原创 2022-03-01 05:15:00 · 1209 阅读 · 0 评论 -
Hudi 的元数据表(Metadata Table)
使用元数据表的原因Apache Hudi 元数据表使得读取/写入操作可以获得更好的性能。使用元数据表的主要目的是为了避免 “list files” 的操作。没有元数据表的支持,在读取和写入数据时,通过文件的 “list” 操作来获取当前文件系统的视图。当数据数据集非常大时,列出所有的文件会成为性能的瓶颈,使用元数据表会预先维护文件系统的视图,如果所有文件的列表,可以避免递归地进行"list files"操作。开启元数据表情况下,进行TPCDS benchmark p50 “list” 操作的时延测试:原创 2022-02-28 05:15:00 · 2963 阅读 · 1 评论 -
Hudi 索引的选择策略
本文通过介绍三种不同的使用场景的特点,并在各自场景下选择的 Hudi 索引的类型。包括的场景有:事实表更新,事件表去重,维度表的更新。索引类型有BLOOM,SIMPLE,HBase。原创 2022-02-27 04:45:00 · 590 阅读 · 1 评论 -
Hudi 的索引机制和类型
本文介绍了 Hudi 的索引机制、索引类型(Bloom/Simple/HBase)、以及 Global索引和 Non-Global 索引原创 2022-02-26 04:45:00 · 2419 阅读 · 2 评论 -
基于 Ubuntu 玩转 Hudi Docker Demo (4)—— Hive 查询 Hudi 表
本文介绍了如何使用 Hive 查询 Hudi 表。包括:CopyOnWrite 表的快照查询和增量查询MergeOnRead 表的快照查询,读优化查询和增量查询原创 2022-02-12 20:11:16 · 1287 阅读 · 0 评论 -
Hudi 表的类型和查询方式
本文介绍了 Hudi 表类型以及查询类型表类型:CopyOnWrite 和 MergeOnRead查询类型:SnapshotQuery, IncrementalQuery, ReadOptimizedQuery原创 2022-02-11 12:58:23 · 2023 阅读 · 0 评论 -
基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询
本文介绍 Spark 写入和查询 Hudi 表。包括写入 CopyOnWrite 和 MergeOnRead 类型的 Hudi 表。查询包括 快照查询,读优化查询,增量查询。原创 2022-02-11 19:20:14 · 1281 阅读 · 0 评论 -
基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka
本文介绍了如何通过 kafkacat 把测试数据写入到 kafka原创 2022-02-10 18:12:15 · 1549 阅读 · 0 评论 -
基于 Ubuntu 玩转 Hudi Docker Demo (1)—— 集群安装
基于 Ubuntu 玩转 Hudi Docker Demo本文主要内容如下: - 环境准备,Docker,kafkacat, jp安装, /etc/hosts 文件修改等 - Hudi 编译 - 基于 Docker 搭建测试集群,包含 hdfs/hive/spark/presto 等组件原创 2022-02-09 19:34:37 · 1567 阅读 · 0 评论 -
什么是湖仓一体
本文回顾了数据湖遇到的挑战,以及湖仓是如何解决这些挑战数据湖、数据仓库、湖仓的对比目前主流的湖仓一体方案:deltalake,hudi,iceberg原创 2022-01-24 22:35:18 · 2061 阅读 · 0 评论 -
什么是数据湖
什么是数据湖为什么需要数据湖数据湖面临的挑战原创 2022-01-23 21:06:29 · 886 阅读 · 0 评论 -
湖仓方案DeltaLake、Hudi、Iceberg功能对比
湖仓方案DeltaLake、Hudi、Iceberg功能对比原创 2022-01-23 11:43:08 · 2814 阅读 · 0 评论
分享