浅谈一波hive中参数设置的含义

最新推荐文章于 2022-04-26 15:14:13 发布

zwmonk

最新推荐文章于 2022-04-26 15:14:13 发布

阅读量522

点赞数 1

分类专栏： hive 文章标签： sql

本文链接：https://blog.csdn.net/zwmonk/article/details/108041392

版权

本文探讨了Hive在处理大数据时遇到的问题，如数据倾斜和jobs效率低下，并详细介绍了如何通过设置maptask和reducetask的数量，以及优化小文件合并、MapReduce的combiner组件和并行化处理来提升性能。还涉及了如何处理数据倾斜的策略，如skewjoin和group by的优化方法。

摘要由CSDN通过智能技术生成

分布式框架计算特性
1、数据量大不是问题，数据倾斜是个问题
2、jobs 数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次
汇总，产生十几个 jobs，耗时很长。原因是 map reduce 作业初始化的时间是比较长的
3、sum,count,max,min 等 UDAF，不怕数据倾斜问题，hadoop 在 map 端的汇总合并优化，使
数据倾斜不成问题
4、count(distinct userid)，在数据量大的情况下，效率较低，如果是多 count(distinct
userid,month)效率更低，因为 count(distinct)是按 group by 字段分组，按 distinct 字段排序，
一般这种分布方式是很倾斜的，比如 PV 数据，淘宝一天 30 亿的 pv，如果按性别分组，分
配 2 个 reduce，每个 reduce 期望处理 15 亿数据，但现实必定是男少女多
设置合理的 maptask 数量
Map 数过大
Map 阶段输出文件太小，产生大量小文件
初始化和创建 Map 的开销很大
Map 数太小
文件处理或查询并发度小，Job 执行时间过长
大量作业时，容易堵塞集群
在 MapReduce 的编程案例中，我们得知，一个MR Job的 MapTask 数量是由输入分片 InputSplit
决定的。而输入分片是由 FileInputFormat.getSplit()决定的。一个输入分片对应一个 MapTask，
而输入分片是由三个参数决定的：
dfs.blocksize 128M HDFS 默认数