使用AWS Athena查询Apache Hudi数据集

最新推荐文章于 2023-10-21 15:52:08 发布

xleesf

最新推荐文章于 2023-10-21 15:52:08 发布

阅读量455

点赞数

分类专栏： ApacheHudi

本文链接：https://blog.csdn.net/weixin_45914070/article/details/107689089

版权

Apache Hudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

Hudi处理数据插入和更新，不会创建太多的小文件(小文件会导致查询端性能降低)，Apache Hudi自动管理及合并小文件，让其保持指定大小，这避免了自建解决方案来监控和重写小文件为大文件。

Hudi数据集在如下场景下非常适用

Hudi使用开放的数据格式管理S3的数据集。现在Athena可以查询Hudi数据集，但暂还不支持写入，Athena使用Apache Hudi 0.5.2-incubating版本，0.5.2-incubating版本信息可参考这里

Hudi数据集有如下类型

Merge on Read (MoR) – 使用Parquet列式 + Avro行式存储，更新将会写入delta日志文件，后面将会和Parquet列式文件进行压缩生成新版本列式文件。

对于CoW数据集，对记录更新时，包含记录的文件将会被重写；对于MoR数据集，对记录更新时，Hudi仅仅只会写更新的值。因此MoR更适合重写的场景，CoW更适合重读场景（数据很少变更）。

Hudi提供了三种逻辑视图来访问数据：

现在Athena只支持Read-optimized视图，这提供了更好的查询性能但未包含最新的delta提交。关于数据集类型做的tradeoff，可以参考Hudi文档Storage Types & Views 。

Athena对Hudi数据集仅支持查询Read-optimized视图
- 对于CoW类型，Athena支持快照查询；
- 对于MoR类型，Athena支持读优化查询；
Athena对Hudi数据集不支持CTAS 或 INSERT INTO，更多关于如何写入Hudi数据集，可参考
- Amazon EMR 发布指南中玩转Hudi数据集
- Apache Hudi文档：写Hudi表
Athena对Hudi表不支持使用MSCK REPAIR TABLE。如果需要加载非Glue创建的Hudi表，请使用ALTER TABLE ADD PARTITION