Hive之Grouping Sets函数

最新推荐文章于 2023-12-13 22:07:02 发布

☞空白页

最新推荐文章于 2023-12-13 22:07:02 发布

阅读量595

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/weixin_44441757/article/details/115352217

版权

Hive 专栏收录该内容

32 篇文章 6 订阅

订阅专栏

本文介绍了Hive中的GroupingSets函数，用于高效处理多维度聚合分析，避免多次UNIONALL操作。通过一个具体的建表和数据插入例子，展示了如何使用GROUPINGSETS进行分组，并解释了其结果中NULL作为占位符的含义。同时，针对大量GROUPINGSETS的情况，提出了设置`hive.new.job.grouping.set.cardinality`以优化执行效率。

摘要由CSDN通过智能技术生成

Hive之Grouping Sets函数

对于经常需要对数据进行多维度的聚合分析的场景，您既需要对a列做聚合，也要对b列做聚合，同时要按照a、b两列同时做聚合，因此需要多次使用UNION ALL。使用GROUPING SETS可以快速解决此类问题。并且能优化stage的个数，提高执行效率。

1.建表

create table test
(id string,
 os string,
 device string,
 city string);

2.准备数据

insert into test values
    (1, 'windows', 'PC', 'Beijing'),
    (2, 'windows', 'PC', 'Shijiazhuang'),
    (3, 'linux', 'Phone', 'Beijing'),
    (4, 'windows', 'PC', 'Beijing'),
    (5, 'ios', 'Phone', 'Shijiazhuang'),
    (6, 'linux', 'PC', 'Beijing'),
    (7, 'windows', 'Phone', 'Shijiazhuang')
;

3.使用GROUPING SETS进行分组

SELECT os,device, city ,COUNT(*)
FROM test
GROUP BY os, device, city GROUPING SETS((os, device), (city), ());

展示结果：

说明：分组集中不使用的表达式，会使用NULL充当占位符，使得这些结果集可以做UNION操作。例如结果第1-5行的city列

注：

hive中grouping sets 数量较多时如何处理?

可以使用如下设置来

set hive.new.job.grouping.set.cardinality = 30;

这条设置的意义在于告知解释器，group by之前，每条数据复制量在30份以内。

☞空白页

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive之Grouping Sets函数

Hive之Grouping Sets函数对于经常需要对数据进行多维度的聚合分析的场景，您既需要对a列做聚合，也要对b列做聚合，同时要按照a、b两列同时做聚合，因此需要多次使用UNION ALL。使用GROUPING SETS可以快速解决此类问题。并且能优化stage的个数，提高执行效率。1.建表create table test(id string, os string, device string, city string);2.准备数据insert into test v
复制链接

扫一扫

专栏目录