自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 记录:解决kafka实时数据接入hive表后,hive表查询慢

接上一篇,使用spark streaming消费数据到hive后,反馈hive查询速度极慢,经过查询后发现可能是小文件太多引起的(微批插入,每个批次都会产生小文件,我设置三分钟一次,一天就会产生几百个小文件),但是代码已经提交运行,更改比较麻烦,如果在里面优化相当于每一次插入之前都合并下小文件,或者开启自动小文件合并,这两种我都没试过,最终选择新建一个shell脚本,使用定时合并小文件方式成功解决;但是我并没有合并当天的分区,因为怕影响数据流运行。

2025-09-17 10:28:35 146

原创 使用Spark Streaming 消费kafka数据到hive问题记录

1.开始用2.1版本的spark客户端依赖,该版本貌似只适合用spark streaming 方式,使用structured streaming兼容性不好,整半天没行,该版本自带的kafka客户端是0.1.0(大坑!3.最后在我几十次调试之后,直接上了2.4.8的客户端版本,这个版本我之前hive-redis的时候用过,没遇到问题(实在是我们生产2.1.0太老了),这个2.4.8版本自带的是kafka 2.0.0客户端,试了一下居然可以了,想哭了之前没用这个版本试了n次都不行。

2025-09-08 14:23:19 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除