数据湖 IncrementalPuller 实现分析

wulei.cnvip

已于 2022-09-15 13:14:04 修改

阅读量1.5k

点赞数 3

分类专栏： Apache Iceberg 原理与实践 Apache Hudi 原理与实践文章标签：大数据 spark kafka

于 2021-03-04 10:20:52 首次发布

本文链接：https://blog.csdn.net/wuleidaren/article/details/114361449

版权

Apache Iceberg 原理与实践同时被 2 个专栏收录

6 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Apache Hudi 原理与实践

3 篇文章 0 订阅

订阅专栏

本文深入探讨IncrementalPuller在Hadoop数据增量查询中的应用，包括Hudi和Iceberg的实现方式。文章阐述了Incremental processing如何在批处理和流处理之间提供近实时处理，同时分析了在Flink中Iceberg的increment read操作，并详细解释了相关参数和流程。

摘要由CSDN通过智能技术生成

本文说讨论的 IncrementalPuller 是指 Hadoop 数据的增量查询，有两种场景，batch 模式下查询是指一次性返回所有或者有变化的数据，steaming 模式下查询是指连续返回所有数据并接着只返回有变化的数据，或者只返回有变化的数据，这取决于用户如何指定 increment scan 的 snapshot。

IncrementalPuller 配合数据的 Row Level Delete（即数据的update、delete）即可以实现 Incremental processing on Hadoop ,介于 batch processing 和 Stream processing 之间的 near-real-time processing，比如 batch processing 指的是数据结果延迟 1小时以上的，经典的是以 MR/Spark 为代表的 T+1 数据，Stream processing 指的是数据结果延迟小于5分钟，以 Flink/Spark Streaming 为代表，而 near-real-time processing 指的是数据结果延迟在 5分钟到 1小时之间计算，经典的场景是计算最近X