impala去重的两种方案

最新推荐文章于 2022-07-11 15:56:08 发布

weixin_43831204

最新推荐文章于 2022-07-11 15:56:08 发布

阅读量2.5k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_43831204/article/details/107956302

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

方案一

聚合函数,GROUP BY可以跟多个字段

SELECT
	min( o.userid ),min( o._id ),min( o.action ),min( o.event_value ),
	min( o.deviceid ),min( o.platform ),min( o.mac ),min( o.androidid ),
	min( o.ip ),min( o.channel ),min( o.brand ),min( o.oaid ),min( o.time ),
	min( o.imei ),min( o.idfa ),min( o.idfv ),min( o.user_agent ),min( o.guid ),
	min( o.page ),min( o.duration ),min( o.city ),min( o.country ),min( o.region ) 
FROM
	origin_log o 
WHERE
	action IN ( 'app_090103', 'web_090103' ) 
	AND time > '2020-05-01 00:00:00' 
	AND NOT EXISTS ( SELECT userid FROM new_user_days n WHERE o.userid = n.userid ) 
GROUP BY
	o.userid

方案二

窗口函数 row_number() over

select 
    a.userid, a._id,a.action,a.event_value,a.deviceid,a.platform,a.mac,a.androidid,a.ip,
    a.channel,a.brand,a.oaid,a.time,a.imei,a.idfa,a.idfv,a.user_agent,a.guid,a.page,
    a.duration,a.city,a.country,a.region 
from 
    (select o.*,row_number() over(partition by userid order by time desc)  as row_id 
    from origin_log o  where  
    action in ('app_090103','web_090103') and time > '2020-05-01 00:00:00'
    and  NOT exists(select userid from new_user_days n where o.userid = n.userid))a
where a.row_id=1

weixin_43831204

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
impala去重的两种方案

方案一聚合函数,GROUP BY可以跟多个字段SELECT min( o.userid ),min( o._id ),min( o.action ),min( o.event_value ), min( o.deviceid ),min( o.platform ),min( o.mac ),min( o.androidid ), min( o.ip ),min( o.channel ),min( o.brand ),min( o.oaid ),min( o.time ), min( o.imei
复制链接

扫一扫

专栏目录