hive怎么通过explain查看数据倾斜，主要看哪些信息？

最新推荐文章于 2024-06-29 17:56:16 发布

请学习好嘛

最新推荐文章于 2024-06-29 17:56:16 发布

阅读量774

点赞数 1

文章标签： hive 大数据 hadoop 数据仓库 mapreduce Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_45937224/article/details/129464075

版权

首先介绍什么是hive的数据倾斜：所谓数据倾斜，就是指在运行HQL处理大规模数据的时候，某个任务计算消耗的时间明显长于其他任务，那么造成这种情况的原因是什么呢？

首先是是数据分部不均匀，数据group时key分部太过离散，导致运行的时候，某个key分区里面的数据过于集中，导致其运行时间明显长于其他分区任务。如果一个表中有一个键值非常频繁出现，而其他键值则很少出现，那么处理这个键值时就会出现数据倾斜，还有就是空值过多的时候也发生数据倾斜（空值全跑到一个分区里面去了）

当不同类型的列进行join关联的时候也会发生数据倾斜

解决方法：

改变数据分布方式：当数据倾斜发生在某些键值上时，可以考虑对数据进行重新分区，以使其分布更加均匀。例如，可以使用哈希分区来使键值分布更均匀，或者使用更合适的分区键来分割数据。

采用多个阶段的MapReduce作业：通过将大的MapReduce作业分解成多个小作业，可以使每个小作业的数据规模更小，从而降低数据倾斜的影响。

使用Join的优化：如果数据倾斜发生在Join操作上，可以考虑使用Join优化技术来解决问题。例如，使用Map-side Join可以减少数据的传输量，并且可以利用缓存来提高性能。

动态调整Reducer数量：在任务执行过程中，可以根据实际情况动态调整Reducer的数量。如果某个Reducer的处理时间太长，则可以将任务重新分配给其他Reducer，从而降低数据倾斜的影响。

使用Combiner：Combiner是一种在Map任务中执行部分Reduce操作的技术，可以在减少数据传输的同时，也可以减少Reducer的处理负担。

使用Bucketing技术：Bucketing技术可以将数据划分成多个桶（bucket），以实现数据的平衡分布。此外，Bucketing还可以提高数据的查询效率

开启数据倾斜负载均衡（set hive.groupby.skewindata=true;）

表join的时候把join列数据类型统一 (cast as ...)

如何用explain查看数据倾斜？

在 Hive 中，可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况，可以通过查看执行计划中的某些信息来判断数据倾斜的情况

查看任务的执行时间：如果某个任务的执行时间比其他任务明显长，很可能是因为该任务所处理的数据量过大，导致数据倾斜。

查看任务的输入数据量：可以通过执行计划中的 Input(s) 字段来查看每个任务的输入数据量。如果某个任务的输入数据量远大于其他任务，可能是因为该任务所处理的数据倾斜。

查看任务的输出数据量：可以通过执行计划中的 Output(s) 字段来查看每个任务的输出数据量。如果某个任务的输出数据量远大于其他任务，可能是因为该任务所处理的数据倾斜。

查看任务的 Shuffle 数据量：可以通过执行计划中的 Shuffle Type 字段来判断每个任务的 Shuffle 数据量。如果某个任务的 Shuffle 数据量远大于其他任务，可能是因为该任务所处理的数据倾斜。

查看任务的 Reduce 数量：如果某个任务的 Reduce 数量远大于其他任务，可能是因为该任务所处理的数据倾斜

具体示例

假设有如下的 Hive 表：
CREATE TABLE sales (
  date STRING,
  product_id INT,
  sales_amount DOUBLE
);
现在要查询每个日期中销售额最大的商品，可以使用以下 SQL 语句：
SELECT date, MAX(sales_amount) AS max_sales_amount
FROM sales
GROUP BY date;

执行上述命令后，可以得到如下的执行计划：

在 Hive 中，可以使用以下命令查看该查询语句的执行计划：
EXPLAIN SELECT date, MAX(sales_amount) AS max_sales_amount FROM sales GROUP BY date;

执行计划：
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: sales
            Statistics: Num rows: 1000 Data size: 100000 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: date (type: string), sales_amount (type: double)
              outputColumnNames: _col0, _col1
              Statistics: Num rows: 1000 Data size: 100000 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: _col0 (type: string)
                sort order: +
                Map-reduce partition columns: _col0 (type: string)
                Statistics: Num rows: 1000 Data size: 100000 Basic stats: COMPLETE Column stats: NONE
                value expressions: _col1 (type: double)
      Reduce Operator Tree:
        Group By Operator
          aggregations: max(VALUE._col0)
          keys: KEY._col0 (type: string)
          mode: final
          outputColumnNames: _col0, _col1
          Statistics: Num rows: 500 Data size: 50500 Basic stats: COMPLETE Column stats: NONE
          Reduce Output Operator
            sort order: 
            Statistics: Num rows: 500 Data size: 50500 Basic stats: COMPLETE Column stats: NONE
            value expressions: _col0 (type: string), _col1 (type: double)
  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

可以看到该执行计划包含了两个阶段（Stage-0 和 Stage-1）。

如果需要判断数据倾斜，可以关注以下信息：

Stage-1 中的 Reduce Operator Tree 中的 Group By Operator 的统计信息，包括 Num rows 和 Data size。如果某个日期的 Num rows 或 Data size 明显大于其他日期，很可能是因为该日期的数据量过大，导致数据倾斜。

Stage-1 中的 Reduce Operator Tree 中的 Group By Operator 的 key expressions。如果某个日期的 key expressions 在 Reduce 阶段中分布不均，很可能是因为该日期的数据量过大，导致数据倾斜。

Stage-1 中的 Map Operator Tree 中的 Statistics。可以查看每个 Map Operator 的统计信息，包括 Num rows 和 Data size。如果某个 Map Operator 的 Num rows 或 Data size 明显大于其他 Map Operator，很可能是因为该 Map Operator 处理的数据量过大，导致数据倾斜。

举个例子，假设执行计划中的 Num rows 和 Data size 统计信息如下：

sqlCopy codeNum rows: 1000 Data size: 100000

如果某个日期的 Num rows 和 Data size 统计信息如下：

sqlCopy codeNum rows: 10000 Data size: 1000000

可以看到，某个日期的数据量明显大于其他日期，很可能是因为该日期的数据量过大，导致数据倾斜。

需要注意的是，数据倾斜不一定会导致任务执行失败，但会导致任务的执行效率降低，需要通过优化查询语句或调整数据分布来解决。

请学习好嘛

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hive怎么通过explain查看数据倾斜，主要看哪些信息？

在 Hive 中，可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况，可以通过查看执行计划中的某些信息来判断数据倾斜的情况
复制链接

扫一扫