hive常见优化方式(参数+SQL)

最新推荐文章于 2023-10-16 18:02:09 发布

VIP文章 ming_rw

最新推荐文章于 2023-10-16 18:02:09 发布

阅读量483

点赞数 1

分类专栏： Hive 文章标签： hive hive参数优化 hive SQL优化数据仓库大数据

本文链接：https://blog.csdn.net/weixin_43695091/article/details/116336589

版权

常见参数优化

设置并行执行

-- 开启任务并行执行
set hive.exec.parallel=true;
 -- 同一个sql允许并行执行stage的最大线程数
set hive.exec.parallel.thread.number=8;

适用场景：sql查询划分出的stage有存在不相互依赖的，典型的如union all的操作，可以开启任务并行执行

map端优化

-- 如果一个任务有很多小文件,则每个小文件也会被当做一个块，用一个map任务来完成，
-- 在map执行前合并小文件，减少map数
 
-- 每个Map最大输入大小设置为2GB（单位：字节）
set mapred.max.split.size=2048000000
 
-- 进行小文件合并
sethive.input.format=org.apache.hadoop

最低0.47元/天解锁文章

ming_rw

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive常见优化方式(参数+SQL)

常见参数优化设置并行执行-- 开启任务并行执行set hive.exec.parallel=true; -- 同一个sql允许并行执行stage的最大线程数set hive.exec.parallel.thread.number=8;适用场景：sql查询划分出的stage有存在不相互依赖的，典型的如union all的操作，可以开启任务并行执行map端优化-- 如果一个任务有很多小文件,则每个小文件也会被当做一个块，用一个map任务来完成，-- 在map执行前合并小文件，减少ma
复制链接

扫一扫