5. Hive的三种去重方法

Hive的三种去重方法

1. distinct
-- 语法

SELECT DISTINCT column1, column2, ...
FROM table_name;

注意事项:

  • distinct 不能单独用于指定某一列,必须放在 select 中所有字段的最前面,否则会报错

    select column1, distinct column2, column3 
    from table_name;
    
    -- 报错信息
    
    类似于 "cannot recognize input near 'DISTINCT' 'column2' 'column3'" 的语法错误
    
  • distinct 是对 select 后面所有字段的组合进行去重,并不是只对紧跟其后的 column1 去重。distinct 的作用范围是整个 SELECT 子句的结果集

  • distinct 对 NULL 是不进行过滤的,即返回的结果中包含NULL值

    with t1 as (
        select 'a' as name
        union all
        select 'b' as name
        union all
        select NULL as name
        union all
        select NULL as name
    )
    
    select distinct name
    from t1;
    
    -- output:
    
    b
    NULL
    a
    
  • 当对大数据集进行去重时,使用 DISTINCT 需要考虑性能影响(效率较慢)

2. group by
-- 语法

SELECT column1, column2, aggregate_function(column3)
FROM table_name
WHERE condition
GROUP BY column1, column2

注意事项:

  • distinct 与 group by 的关系?

    SELECT DISTINCT colA, colB 
    FROM table1;
    
    -- 等价于
    
    SELECT colA, colB 
    FROM table1
    GROUP BY colA, colB;
    
  • 在实现去重时,group by 是对 group by 后面所有字段的组合进行去重,并不是只对紧跟其后的 colA 去重。

3. row_number()
-- 语法

SELECT column1, column2, ..., ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) as row_num
FROM table_name
WHERE condition;

使用 row_number() 实现去重操作

-- 对 column1 进行去重

SELECT column1
FROM (
  SELECT column1 ROW_NUMBER() OVER (PARTITION BY column1) as row_num
  FROM table_name
) t
WHERE row_num = 1;

-- 对 column1、column2 进行去重

SELECT column1,column2
FROM (
  SELECT column1,column2 ROW_NUMBER() OVER (PARTITION BY column1,column2) as row_num
  FROM table_name
) t
WHERE row_num = 1;
4. 三者的效率对比

在 Hive 中,使用 distinctgroup byrow_number() 实现去重时,它们的效率会受到多个因素的影响,包括数据规模、数据分布、查询条件等。

一般情况下,distinct 的效率相对较低,因为它需要对整个结果集进行扫描和比较,以去除重复行。尤其是当数据量较大时,distinct 可能会对性能产生较大的影响。因此,使用 distinct 去重时需要谨慎考虑其性能开销。

相比之下,group by 在处理去重时具有更好的性能group by 会先按照指定的列进行分组,然后在每个分组内进行聚合操作,这样可以减少比较的数据量。当数据量较大时,使用 group by 去重往往比 distinct 效率更高

row_number() 通常用于复杂的去重需求,它能够在查询结果中为每一行生成一个唯一的序号。 row_number() 可以实现更灵活的去重操作,效率相对较高

 

参考链接

Hive的三种去重方式对比

hive中三种去重的方法

Hive DISTINCT() for all columns?

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

helloooi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值