前言:这是个老生常谈的话题,也是几乎面试必问的问题,以下是个人整理的心得,各位看官可以借鉴参考一下
主要从三个方面来说
1.参数调优
2.sql调优
3.资源调优
1.参数调优
本地模式:当数据量较小的时候,启动分布式处理数据会比较慢,启动时间较长,不如本地模式快,用下面的参数来调整
SET hive.exec.mode.local.auto=true; -- 默认 false
SET hive.exec.mode.local.auto.inputbytes.max=50000000; --输入文件的大小小于 hive.exec.mode.local.auto.inputbytes.max 配置的大小
SET hive.