hive优化
文章平均质量分 93
大数据老人家i
大数据应用开发
展开
-
Hive优化补充
文章目录并行优化并行编译并行Stage执行小文件优化矢量化查询读取零拷贝优化数据倾斜优化方案一:方案二:GROUP BY分组统计的倾斜处理优化1:优化2: 并行优化 并行编译 Hive默认情况下,只能同时编译一个SQL到MapReduce代码的转换,并对这个过程上锁。 为了提高效率,同时减少死锁发生的可能性,我们需要将这个一次只能编译一个的操作,优化为并行执行。 参数: set hive.driver.parallel.compilation=true; 默认这个参数是False; 搭配参数: set h原创 2021-01-17 20:05:20 · 196 阅读 · 0 评论 -
Hive相关优化
文章目录1.行存储和列存储2.Hive分区Hive分桶优化 1.行存储和列存储 列存储:每个文件存储一个列,多个文件存储多个列,多个文件合成一张二维表 优点: 针对列的增删改查都很容易 列单独存储,对于每个列都可以进行单独排序,性能更好 列单独存储,可以针对每个列的数据类型设置针对性的压缩算法 可以指定列加载到内存中,更加节省内存 缺点:对于整行的操作性能很低,同时对事务的支持性不行 行存储:数据行存储,一个文件表达二维表 优点: 概念简单容易理解,日常生活中用到的都是行存储,例如CSV和T原创 2021-01-17 18:38:40 · 400 阅读 · 0 评论