程序猿某某人-CSDN博客

原创记录：解决kafka实时数据接入hive表后，hive表查询慢

接上一篇，使用spark streaming消费数据到hive后，反馈hive查询速度极慢，经过查询后发现可能是小文件太多引起的（微批插入，每个批次都会产生小文件，我设置三分钟一次，一天就会产生几百个小文件），但是代码已经提交运行，更改比较麻烦，如果在里面优化相当于每一次插入之前都合并下小文件，或者开启自动小文件合并，这两种我都没试过，最终选择新建一个shell脚本，使用定时合并小文件方式成功解决；但是我并没有合并当天的分区，因为怕影响数据流运行。

2025-09-17 10:28:35 146

原创使用Spark Streaming 消费kafka数据到hive问题记录

1.开始用2.1版本的spark客户端依赖，该版本貌似只适合用spark streaming 方式，使用structured streaming兼容性不好，整半天没行，该版本自带的kafka客户端是0.1.0(大坑！3.最后在我几十次调试之后，直接上了2.4.8的客户端版本，这个版本我之前hive-redis的时候用过，没遇到问题（实在是我们生产2.1.0太老了），这个2.4.8版本自带的是kafka 2.0.0客户端，试了一下居然可以了，想哭了之前没用这个版本试了n次都不行。

2025-09-08 14:23:19 401

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 记录：解决kafka实时数据接入hive表后，hive表查询慢

原创 使用Spark Streaming 消费kafka数据到hive问题记录

空空如也

空空如也

原创记录：解决kafka实时数据接入hive表后，hive表查询慢

原创使用Spark Streaming 消费kafka数据到hive问题记录