【Spark实战系列】sparkstreaming 实时写入 hive 后合并小文件问题

最新推荐文章于 2024-08-05 17:56:25 发布

JasonLee实时计算

最新推荐文章于 2024-08-05 17:56:25 发布

阅读量9.3k

点赞数 3

分类专栏： Spark 实战系列文章标签： sparksql hive 小文件合并

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/82888608

版权

Spark 实战系列专栏收录该内容

41 篇文章 289 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了SparkSQL写入Hive后产生大量小文件导致查询性能下降的问题，并提出两种优化方法：1) 在DataFrame缓存并重新分区；2) 使用SQL定时任务合并文件。通过示例代码详细说明了如何实施这些策略。

摘要由CSDN通过智能技术生成

今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两种方法优化小文件:

(1),第一种,可以在创建的DataFrame的时候,cache一下,然后对DataFrame进行重新分区,可以把分区设置为1,可以用reparation,当然也可以用coalesce,这两个的区别,可以看我的另外一篇博客,这个时候就会一个job产生一个文件.但是这么做就降低了写入的性能,所以数据量不是特别大的时候,还是可以用的,但是如果数据量很大,就需谨慎使用,

(2),第二种方法是利用sql定时执行一下,insert overwrite table a select * from a;这个时候会覆盖表的数据达到合并小文件的目的,具体的sql下面会有.

下面看一下具体的代码吧:

 val df = spark.createDataFrame(rowRDD, schema).cache()
          df.coalesce(1).createOrReplaceTempView("tempTable")

了解本专栏

超级会员免费看

JasonLee实时计算

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录