pig避免产生大量小文件的方法

最新推荐文章于 2024-04-09 11:13:11 发布

emmajinxin

最新推荐文章于 2024-04-09 11:13:11 发布

阅读量634

点赞数

分类专栏： pig 文章标签： pig 小文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangnianjinxin/article/details/83112321

版权

pig 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

参考链接：How do I force PigStorage to output a few large files instead of thousands of tiny files?

pig中会为每个输入文件构建一个mapper, 如果中间没有reduce过程，则输入有多少个文件，输出就有多少个文件（ If you have thousands of input files, you have thousands of output files.）。

可以（官网参考链接：http://pig.apache.org/docs/latest/perf.html#combine-files）设置如下参数合并输入的小文件，达到合并输出文件的效果：

pig.maxCombinedSplitSize – Specifies the size, in bytes, of data to be processed by a single map. Smaller files are combined untill this size is reached.
pig.splitCombination – Turns combine split files on or off (set to “true” by default).

但是这种方法只对利用PigStorage load数据的过程有效。

另外，可以利用reduce的操作来合并小文件。

pig能够触发reduce的操作 COGROUP, CROSS, DISTINCT, GROUP, JOIN (inner), JOIN (outer), 和 ORDER BY。
在含有reducer操作的语句中添加parallel num, num即是最终的文件数。（如果数据量太大，数目太小，有可能运行的时候会失败。。。在我司的集群上跑的时候）。

在group all中，reducer默认为1，parallel不生效，这时候数据量太大有可能会失败，解决方案可参考：Pig 处理大量的小文件

或文章开头给出的链接中的答案：

ps:

1. pig默认reducer的设置：

2. parallel只影响reducer的数量，maper的数量由输入文件的个数确定

The parallel features only affect the number of reduce tasks. Map parallelism is determined by the input file, one map for each HDFS block.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pig避免产生大量小文件的方法

参考链接：How do I force PigStorage to output a few large files instead of thousands of tiny files? pig中会为每个输入文件构建一个mapper, 如果中间没有reduce过程，则输入有多少个文件，输出就有多少个文件（ If you have thousands of input files, you...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。