一、Map的数量是怎么计算
代码位置:org.apache.hadoop.hive.ql.io.(HiveInputFormat | CombineHiveInputFormat)
函数:getSplits
Hive的HiveInputFormat类 是对 MR的InputFormat接口 的封装
下面介绍MR的Map数量获取
1、计算 splitSize
// org.apache.hadoop.mapred.FileInputFormat getSplits函数
// totalSize 是Map端输入的数据量, numSplits 是mapred.map.tasks参数值
long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);