常见参数优化
-
设置并行执行
-- 开启任务并行执行 set hive.exec.parallel=true; -- 同一个sql允许并行执行stage的最大线程数 set hive.exec.parallel.thread.number=8;
适用场景:sql查询划分出的stage有存在不相互依赖的,典型的如union all的操作,可以开启任务并行执行
-
map端优化
-- 如果一个任务有很多小文件,则每个小文件也会被当做一个块,用一个map任务来完成, -- 在map执行前合并小文件,减少map数 -- 每个Map最大输入大小设置为2GB(单位:字节) set mapred.max.split.size=2048000000 -- 进行小文件合并 sethive.input.format=org.apache.hadoop