Hive去重复数据

这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据

Hive数据去重

Sql代码  

  1. insert overwrite table store    
  2.   select t.p_key,t.sort_word from     
  3.     ( select p_key,    
  4.            sort_word ,    
  5.            row_number() over(distribute by p_key sort by sort_word) as rn   
  6.      from store) t    
  7.      where t.rn=1;    


说明:

  • p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
  • t 为子查询的别名,Hive需要在每个子查询后面加别名
  • t.rn=1表示重复的数据只保留第一个。
  • distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
  • sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序
阅读更多
想对作者说点什么? 我来说一句

sql+如何去重复数据

2008年07月20日 399B 下载

没有更多推荐了,返回首页

不良信息举报

Hive去重复数据

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭