SparkStreaming如何解决小文件问题

最新推荐文章于 2024-06-27 17:02:16 发布

xuehuagongzi000

最新推荐文章于 2024-06-27 17:02:16 发布

阅读量1k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/xuehuagongzi000/article/details/105978128

版权

spark 专栏收录该内容

25 篇文章 2 订阅

订阅专栏

使用sparkstreaming时，如果实时计算结果要写入到HDFS，默认情况下会产生非常多的小文件。那么假设，一个batch为10s，每个输出的DStream有32个partition，那么1h产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，NameNode会因此鸭梨山大。这里讨论几种处理Sparkstreaming小文件的典型方法。

增加batch大小

这种方法很容易理解，batch越大，从外部接收的event就越多，内存积累的数据也就越多，那么输出的文件数也就回变少，比如上边的时间从10s增加为100s，那么一个小时的文件数量就会减少到1152个。

Coalesce大法好？

文章开头讲了，小文件的基数是：batch_number*partition_number，而第一种方法是减少batch_number，那么这种方法就是减少partition_number了，就是减少初始的分区个数。所以Coalesce大法的好处就是，可以在最终要输出的时候，来减少一把partition个数。但是这个方法的缺点也很明显，本来是32个线程在写256M数据，现在可能变成了4个线程在写256M数据，而没有写完成这256M数据，这个batch是不算做结束的。那么一个batch的处理时延必定增长。

SparkStreaming外部来处理

我们既然把数据输出到hdfs，那么说明肯定是要用hive或者sparksql这样的“sql on hadoop”系统类进一步进行数据分析，而这些表一般都是按照半小时或者一小时、一天，那么我们可以考虑在SparkStreaming外再启动定时的批处理任务来合并SparkStreaming产生的小文件。

自己调用foreach去append

SparkStreaming提供的foreach这个outout类api，可以让我们自定义输出计算结果的方法。那么我们其实也可以利用这个特性，那就是每个batch在要写文件时，并不是去生成一个新的文件流，而是把之前的文件打开。考虑这种方法的可行性，首先，HDFS上的文件不支持修改，但是很多都支持追加，那么每个batch的每个partition就对应一个输出文件，每次都去追加这个partition对应的输出文件，这样也可以实现减少文件数量的目的。这种方法要注意的就是不能无限制的追加，当判断一个文件已经达到某一个阈值时，就要产生一个新的文件进行追加了。

xuehuagongzi000

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming如何解决小文件问题

使用sparkstreaming时，如果实时计算结果要写入到HDFS，默认情况下会产生非常多的小文件。那么假设，一个batch为10s，每个输出的DStream有32个partition，那么1h产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，Nam...
复制链接

扫一扫

专栏目录