HIVE Map和Reduce数量优化点

最新推荐文章于 2024-05-08 09:00:00 发布

阿武z

最新推荐文章于 2024-05-08 09:00:00 发布

阅读量505

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/xw514124202/article/details/104949020

版权

本文介绍了Hive中Map和Reduce数量的计算方法及其优化点。Map数量由splitSize决定，根据文件大小和Hdfs Block Size计算，而Reduce数量则受mapred.reduce.tasks、hive.exec.reducers.bytes.per.reducer等参数影响。文中提供了相关优化参考文章。

摘要由CSDN通过智能技术生成

一、Map的数量是怎么计算

代码位置：org.apache.hadoop.hive.ql.io.(HiveInputFormat | CombineHiveInputFormat)
函数：getSplits
Hive的HiveInputFormat类是对 MR的InputFormat接口的封装
下面介绍MR的Map数量获取

1、计算 splitSize

// org.apache.hadoop.mapred.FileInputFormat getSplits函数

// totalSize 是Map端输入的数据量, numSplits 是mapred.map.tasks参数值
long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿武z

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HIVE Map和Reduce数量优化点

一、Map的数量是怎么计算A、在什么情况下应该增加Map数量B、在什么情况下应该减少Map数量二、Reduce的数量是怎么计算代码位置：org.apache.hadoop.hive.ql.exec.mr.MapRedTask函数：setNumberOfReducers、estimateNumberOfReducers影响参数：mapred.reduce.tasks （用户直接设...
复制链接

扫一扫