5. Hive的三种去重方法

最新推荐文章于 2024-03-06 23:30:17 发布

helloooi

最新推荐文章于 2024-03-06 23:30:17 发布

阅读量4.9k

点赞数 2

分类专栏： # Hive 文章标签： hive

本文链接：https://blog.csdn.net/weixin_43676735/article/details/131514961

版权

Hive 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

- - Hive的三种去重方法

Hive的三种去重方法

1. distinct

-- 语法

SELECT DISTINCT column1, column2, ...
FROM table_name;

注意事项：

distinct 不能单独用于指定某一列，必须放在 select 中所有字段的最前面，否则会报错

select column1, distinct column2, column3 
from table_name;

-- 报错信息

类似于 "cannot recognize input near 'DISTINCT' 'column2' 'column3'" 的语法错误

distinct 是对 select 后面所有字段的组合进行去重，并不是只对紧跟其后的 column1 去重。distinct 的作用范围是整个 SELECT 子句的结果集

distinct 对 NULL 是不进行过滤的，即返回的结果中包含NULL值

with t1 as (
    select 'a' as name
    union all
    select 'b' as name
    union all
    select NULL as name
    union all
    select NULL as name
)

select distinct name
from t1;

-- output:

b
NULL
a

当对大数据集进行去重时，使用 DISTINCT 需要考虑性能影响（效率较慢）

2. group by

-- 语法

SELECT column1, column2, aggregate_function(column3)
FROM table_name
WHERE condition
GROUP BY column1, column2

注意事项：

distinct 与 group by 的关系？

SELECT DISTINCT colA, colB 
FROM table1;

-- 等价于

SELECT colA, colB 
FROM table1
GROUP BY colA, colB;

在实现去重时，group by 是对 group by 后面所有字段的组合进行去重，并不是只对紧跟其后的 colA 去重。

3. row_number()

-- 语法

SELECT column1, column2, ..., ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) as row_num
FROM table_name
WHERE condition;

使用 row_number() 实现去重操作

-- 对 column1 进行去重

SELECT column1
FROM (
  SELECT column1 ROW_NUMBER() OVER (PARTITION BY column1) as row_num
  FROM table_name
) t
WHERE row_num = 1;

-- 对 column1、column2 进行去重

SELECT column1,column2
FROM (
  SELECT column1,column2 ROW_NUMBER() OVER (PARTITION BY column1,column2) as row_num
  FROM table_name
) t
WHERE row_num = 1;

4. 三者的效率对比

在 Hive 中，使用 distinct、group by 和 row_number() 实现去重时，它们的效率会受到多个因素的影响，包括数据规模、数据分布、查询条件等。

一般情况下，distinct 的效率相对较低，因为它需要对整个结果集进行扫描和比较，以去除重复行。尤其是当数据量较大时，distinct 可能会对性能产生较大的影响。因此，使用 distinct 去重时需要谨慎考虑其性能开销。

相比之下，group by 在处理去重时具有更好的性能。group by 会先按照指定的列进行分组，然后在每个分组内进行聚合操作，这样可以减少比较的数据量。当数据量较大时，使用 group by 去重往往比 distinct 效率更高。

row_number() 通常用于复杂的去重需求，它能够在查询结果中为每一行生成一个唯一的序号。 row_number() 可以实现更灵活的去重操作，效率相对较高。

参考链接

Hive的三种去重方式对比

hive中三种去重的方法

Hive DISTINCT() for all columns?

helloooi

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
5. Hive的三种去重方法

distinct 不能单独用于指定某一列，必须放在 select 中所有字段的最前面，否则会报错。会先按照指定的列进行分组，然后在每个分组内进行聚合操作，这样可以减少比较的数据量。，并不是只对紧跟其后的 column1 去重。实现去重时，它们的效率会受到多个因素的影响，包括数据规模、数据分布、查询条件等。distinct 对 NULL 是不进行过滤的，即返回的结果中包含NULL值。通常用于复杂的去重需求，它能够在查询结果中为每一行生成一个唯一的序号。，并不是只对紧跟其后的 colA 去重。
复制链接

扫一扫