实际生产中:Hive 合并小文件(强烈建议此法)

本文介绍了在实际生产环境中,Hive小文件对Hadoop集群性能的影响,如消耗NameNode内存和降低Job运行效率。为解决此问题,提出了对Hive历史分区的小文件进行归档处理的解决方案,包括对特定分区的归档和解档操作,以确保数据管理和性能优化的灵活性。
摘要由CSDN通过智能技术生成

背景:

实际项目中,小文件的产生会影响hadoop集群的性能;过度使用namenode的内存等;启动过多的map任务,拉低整体Job的运行效率等等弊端。

解决方案:

针对Hive表(下文统称表A)中,特别是历史分区,存在大量小文件的话,强烈建议对分区下的小文件进行归档处理。

1.以下是合并小文件的处理方式:

#使用hive archive 功能(这个是hive本身提供的功能)
#启动archive功能
set hive.archive.enabled = true;
#对hive表的指定分区进行归档操作
alter table A ARCHIVE PARTITION (day ='2021-06-01');
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

 指定分区进行归档之后,就不可以进行数据的追加或覆写操作.所以一般对不更新数据的历史分区进行archive操作.

2.对指定分区进行解档操作:

#对分区表已经归档的分区进行解档操作
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值