大数据--hive11--留存指标的计算

本文详细介绍了如何使用Hive SQL计算14日留存率,包括留存定义、具体需求分析、源数据说明、计算思路、SQL代码实现及关键想法。通过对用户访问数据的处理和表连接,结合时间约束,得出留存用户数量。
摘要由CSDN通过智能技术生成

目录

一:留存定义

二:真实需求,求14日的留存

2.1 源数据

2.2 思路分析

2.3 代码

2.4 结果

三:求留存的关键想法


一:留存定义

    以天为单位,跨天后再来访问即为留存,例如给定我们的需求:

知道指定日期后隔1-14天的留存,如2020-08-01天来的访客,之后1天,2天,3天,....再来人数。

注意:我们要清楚留存是针对谁(那个日期)来说的例如用户a25日有记录,26日没有记录,27日有记录。

那么我们是针对25日来说的,也就是说25日的用户a,1日留存没有, 有2日留存。

    留存率:具体问题具体分析,一般分母都是2020-08-01的人数。

二:真实需求,求14日的留存

2.1 源数据

我们以访问留存为例,数据表位于 dwd.pv_log,以下为其中涉及的部分:

uuid ctime p_day
562234 2020-05-08 11:09:19.0 20200508
783425 2020-05-08 12:09:19.0 20200508
342643 202
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值