配置相关:
列式存储 parquet
压缩 lzo
分区
tez/spark引擎
MR相关:
合理设置 Map个数 split.size
合理设置 Reduce个数
combiner 不能影响最终业务逻辑
mapjoin
查询相关:
行列过滤
小文件产生 动态分区,reduce过多,数据源本身
小文件解决 combineinputformat,merge(输出文件平均大小小于阈值时,启动一个MR进行merge),JVM重用
配置相关:
列式存储 parquet
压缩 lzo
分区
tez/spark引擎
MR相关:
合理设置 Map个数 split.size
合理设置 Reduce个数
combiner 不能影响最终业务逻辑
mapjoin
查询相关:
行列过滤
小文件产生 动态分区,reduce过多,数据源本身
小文件解决 combineinputformat,merge(输出文件平均大小小于阈值时,启动一个MR进行merge),JVM重用