数仓实例
哒哒达
我又不上班叫我起床干嘛
展开
-
(从电商项目认识数仓体系十一)拉链表
1 品牌复购率结果表固化到mysql1.1 mysql建表CREATE TABLE sale_tm_category1_stat_mn( tm_id VARCHAR(200) COMMENT'品牌id', category1_id VARCHAR(200) COMMENT'1级品类id', category1_name VARCHAR(200) COMMENT'1级品类名称', buycount VARCHAR(200) COMMENT'购买人数,' bu原创 2020-07-08 14:57:53 · 617 阅读 · 0 评论 -
(从电商项目认识数仓体系十)报表及azkaban导出
1 ADS1.1 GVMGMV(Gross Merchandise Volume),成交总额(一定时间段内),在电商网站定义为网站成交金额,实际指拍下订单金额,包含付款和未付款的部分,是电商品台非常重视的统计指标,甚至写在招股书里。不同公司GMV算法不同,例GMV=下单金额,GMV=下单金额-(大额订单,10w),GMV=下单金额+预定金额1.2 GVM建表及数据导入语句DROP TABLE IF EXISTS ads_gmv_sum_day;CREATE TABLE ads_gmv_s原创 2020-07-07 18:04:27 · 1372 阅读 · 0 评论 -
(从电商项目认识数仓体系九)业务数仓搭建
1 业务数据业务数据一般存入mysql中,过程较为单一简单,不再赘述2 业务数据导入数仓2.1 表的同步策略序号 表名 解释 同步策略 1 order_info 订单表 新增及变化 2 order_detail 订单详情 增量 3 sku_info 商品表 全量 4 user_info 用户表 全量 5 base_category1 商品一级分类表 全量 6原创 2020-07-06 21:51:54 · 539 阅读 · 0 评论 -
(从电商项目认识数仓体系八)业务数仓理论
1 表的分类1.1 实体表定义:一般指一个现实存在的业务对象,比如用户,商品,商家,销售员等等例:用户表 用户id 姓名 生日 性别 邮箱 用户等级 创建时间 1 张三 2011-11-11 男 [email protected] 2 2018-11-11 2 李四 2011-11-11 女 [email protected] 3 2018-11-11 3 王五 2011-11-11原创 2020-07-05 20:53:52 · 596 阅读 · 0 评论 -
(从电商项目认识数仓体系七)业务数仓及表
1 电商业务流程2 电商常识(SKU、SPU)a.SKU:SKU(Stock Keeping Unit),库存量单位,即库存进出计量的基本单元,可以是件,盒,托盘等为单位。SKU是对于大型连锁超市DC(配送中心)物流管理的一个必要的方法,现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号b.SPU(Standard Product Unit),标准化产品单元,是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。例:在购买商品时,首原创 2020-07-03 11:10:09 · 1038 阅读 · 0 评论 -
(从电商项目认识数仓体系六)需求及实现
需求一用户活跃主题目的:统计当日、当周、当月活动的每个设备明细DWS层表设计及逻辑1 每日活跃设备明细分析-- 建表语句DROP TABLE IF EXISTS dws_uv_detail_day;CREATE TABLE dws_uv_detail_day( `mid_id` STRING COMMENT'设备唯一标识', `user_id` STRING COMMENT'用户标识', `version_code` STRING COMMENT'程序版本号原创 2020-07-01 18:33:45 · 336 阅读 · 0 评论 -
(从电商项目认识数仓体系五)业务术语定义及系统函数
1 术语解释a.用户:用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。b.新增用户:首次联网使用应用的用户。如果一个用户首次打开某app,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。c.活跃用户:打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。d.周(月)活跃用原创 2020-06-30 20:38:30 · 413 阅读 · 0 评论 -
(从电商项目认识数仓体系四)行为数仓加载数据
1原创 2020-06-12 17:55:57 · 402 阅读 · 0 评论 -
(从电商项目认识数仓体系三)行为数仓数据路径
1 日志采集(1)日志在生成之后分发时,对于本项目来说会分发至kafka,而kafka中会有多个主题,某些公司甚至会一张表一个主题进行分发,对于本项目来说分为两个主题,一个start主题,一个event主题(2)图示注释:(1)TailDir有断点续传功能2 拦截器(1)interceptor配置a1.sources.s1.interceptors=i1 i2a1.sources.s1.interceptors.i1.type=自己的jar包a1.sources.s1原创 2020-06-05 18:12:09 · 256 阅读 · 0 评论 -
(从电商项目认识数仓体系二)行为数仓数据格式及表
1 埋点数据基本格式公共字段:基本所有手机都包含的字段 业务字段:埋点上报字段,有具体的业务类型ps:一般使用json格式json格式示例:{"ap":"xxxxx",//产品字段 app key"cm":{ //公共字段 "mid": "", //(String) 设备唯一标识 "uid": "", //(String) 用户标识 "vc": "1", //(String) versionCode,程序版本号 "vn": "1.0", //(Strin原创 2020-06-05 15:27:12 · 525 阅读 · 0 评论 -
(从电商项目认识数仓体系一)数仓介绍
1 基本流程图2 基本介绍数据仓库(Data Warehouse),简写为DW或DWH,为企业做决策提供系统数据支持的集合。例:仓库中一个指标为用户浏览网页次数(UV),如果用户多次浏览该网页,如果是电商系统,则可以认为该用户有购买该商品意向,可对该用户进行商品推荐,或者可作为报表提供给决策层进行一些决策数据仓库的作用并不单单是存储,而是对数进行一些处理后,将处理后的数据,分门别类的存储,作为能够支撑业务或者分析的处理后数据源,使得对应的需求能够从对应的主题中直接提取所需要的数据,这些处理包原创 2020-06-04 17:33:10 · 1692 阅读 · 0 评论