HIVE查询优化

最新推荐文章于 2022-03-25 18:33:57 发布

初心江湖路

最新推荐文章于 2022-03-25 18:33:57 发布

阅读量913

点赞数

分类专栏：数据仓库 Hive 文章标签： HIVE查询优化

本文链接：https://blog.csdn.net/weixin_43878293/article/details/104387364

版权

所有的调优都离不开对CPU、内存、IO这三样资源的权衡及调整

Hive QL的执行本质上是MR任务的运行，因此优化主要考虑到两个方面：Mapreduce任务优化、SQL语句优化

一、Mapreduce任务优化

1、设置合理的task数量（map task、reduce task）

这里有几个考虑的点，一方面Hadoop MR task的启动及初始化时间较长，如果task过多，可能会导致任务启动和初始化时间远超逻辑处理时间，这种情况白白浪费了计算资源。另一方面，如果任务复杂，task过少又会导致任务迟迟不能完成，这种情况又使计算资源没有充分利用。

因为其读取输入使用Hadoop API，所以其map数量由以下参数共同决定：

minSize = Math.max(job.getLong(“mapred.min.split.size”, 1), minSplitSize);
mapred.min.split.size：设置每个map处理的最小数据量
minSplitSize：一般默认为都为1，可由子类复写函数protected void setMinSplitSize(long minSplitSize) 重新设置。

blockSize：默认的HDFS文件块大小

goalSize=totalSize/numSplits 期望的每个Map处理的split大小，仅仅是期望的
numSplits ：是在 job 启动时通过JobConf.setNumMapTasks(int n) 设置的值，是给框架的map数量的提示 totalSize ：整个job所有输入的总大小

splitSize的计算方式如下：
max( minSize, min(blockSize, goalSize) )

最终map数量由以下方式计算得出：
map数量=totalSize/splitSize

可以看出在调整map数量时，可通过调整blockSize和mapred.min.split.size的方式实现，但是调整blockSize可能并不现实，所以程序执行时通过设置mapred.min.split.size参数来设定。

当然，需要特别注意的是，如果文件特别大，需要支持分割才能进行分片，产生多个map，否则单个文件不可分割那就一个map。如果文件都特别小（比blockSize都小），可以使用CombineFileInputFormat将input path中的小文件合并成再送给mapper处理。

reduce task个数确定：
1）设置set mapred.reduce.tasks=?
2）若1）没有设置，hive通过下面两个参数来计算

最低0.47元/天解锁文章

初心江湖路

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
HIVE查询优化

所有的调优都离不开对CPU、内存、IO这三样资源的权衡及调整Hive QL的执行本质上是MR任务的运行，因此优化主要考虑到两个方面：Mapreduce任务优化、SQL语句优化一、Mapreduce任务优化1、设置合理的task数量这里有几个考虑的点，一方面Hadoop MR task的启动及初始化时间较长，如果task过多，可能会导致任务启动和初始化时间远超逻辑处理时间，这种情况白白浪费了...
复制链接

扫一扫