数仓之新老访客标记实现
1. 背景
- 在数仓的处理需求中,当对数据做了设备和账号绑定处理,也就是id mapping处理之后。接下来的一个基础需求之一就是新老访客标记。
- 注意,将用户设备和用户账号绑定,想办法形成一个全局id是后续所有数据分析的基础。不管是已登录账号和未登录账号使用设备访问,都需要形成一个唯一的全局通用id,有的公司称之为guid
- guid处理好之后,就是统计基础指标,如新老访客等
注意,在大数据或者任何其他技术岗位的开发中,了解清楚需求并且跟需求方二次确认无误后,再进行开发,这样是避免需求理解错误造成开发损失的最佳方法
2. 实现思路
- 如果做了id mapping,则每日滚动可以生成一个类似如下的表
- 这里使用结构化数据代表表,简便一些
- 下面是t-1日,也就是2020-10-19滚动形成的id mappping结果表
deviceid,uid,score
d01,u01,100
d01,u02,80
d02,u03,60
d06,null,
- 下面是t日,也就是2020-10-20的行为日志数据
deviceid,uid
d01,u01
d02,u03
d02,
d02,u07
d04,u04
d05,u01
d06,