![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 92
三年之期已到
此人一点都不懒
展开
-
聊一聊Flink 写 Hive 的小文件问题
Flink 1.11 引入了写Hive的功能后,已经在上线了一段时间。下面就聊聊我自己对Flink 写Hive 小文件的一些问题和看法。 问题1: 1.Flink 写 Hive 可能会产生小文件吗? 简单的说,答案是会。 简单总结下Flink 读kafka写Hive的流程 1.Flink 将kafka数据根据设置的分区策略,实时写入对应分区hdfs 目录的临时文件 inprogress,如下图所示。 在inprogress文件的数据,通过hive是无法查询到的。 2.打checkp..原创 2021-03-12 11:49:23 · 4820 阅读 · 0 评论 -
使用Spark sql 合并 Flink 写Hive表的小文件
1.背景 Flink 1.11支持写直接写入Hive后,流批一体进一步实现。虽然可以通过调整sink.shuffle-by-partition.enable和checkpoint时间间隔的方式尽可能地减少Flink产生的小文件,但是即使Flink 1.12加入了自动合并小文件的功能,也无法完全避免小文件的产生。 所以需要定期对Flink 写hive表的小文件进行合并。 2.Hive Tez 方式 合并小文件 set hive.exec.dynamic....原创 2021-03-11 19:01:40 · 2382 阅读 · 2 评论