欢迎点击此处关注公众号。
1.3 distinct
前面提到 Hive SQL 语法本质上分为 3 类:过滤模式、聚合模式、连接模式。
- 过滤模式:例如 where、having 等;
- 聚合模式:存在 Shuffle 过程,需要特别注意;
- 连接模式:分为有 Shuffle 连接和无 Shuffle 连接。
而 distinct 兼具过滤和聚合的功能。
1.3.1 distinct 过滤
distinct 用于列投影中过滤重复的数据,在 Hive 中发生在 Reduce 阶段。在 Hive 中,下面两个 SQL 等价:
select distinct age
from stu_tb;
select age
from stu_tb
group by age;
<