1 总述
1.1 什么是OneData
大数据建设方法论
从规范定义、数据模型、数据研发到数据服务、可管理、可追溯、规避重复建设、提供标准的、共享的、服务化的数据;
1.2 数据架构体系
2 规范定义
2.1 指标的定义和管理体系
统一指标、统一算法口径
有效GMV:
- 下单金额
- 支付金额
- 最近一天
- 自然周
- 财年
- 去除大额的逻辑
- 计算逻辑
命名规范:
- 下单有效金额:crt_ord_vld_amt
- 最近1天下单有效金额:crt_ord_vld_amt_1d_001
2.2 名词术语
2.3 案例说明
2.4 指标举例
2.5 指标体系的基本原则
-
派生指标由原子指标、时间周期修饰词、若干其它修辞词组合得到
-
原子指标、修饰词、直接归属在业务过程下
-
派生指标可以选择多个修饰词,修饰词之间的关系为:或、且的关系,具体由具体的派生指标语义决定
-
派生指标唯一归属一个原子指标、继承原子指标的数据域、与修饰词的数据域无关
-
一般而言:事务型指标和存量型指标只会唯一定位到一个业务过程,如果遇到同时有两个行为发生、需要多个修饰、生成一个派生指标的话、选择时间靠后的行为创建原子指标、另一个时间靠前的行为创建修饰词
-
原子指标由确定的英文字段名、数据类型和算法说明;派生指标要集成原子指标的英文名的数据类型和算法要求
3 模型设计
3.1 数据模型
数据的有序、有结构的分类组织和存储方法
- 有效的组织和存储
- 统一算法口径
- 避免重复计算
- 取用方便
比如 - 淘宝交易明细事实表,分摊金额到交易子订单,去掉优惠金额等逻辑
- 冗余商品、买家、卖家等维度的属性
比如:
- 主交易卖家粒度最近1天汇总事实表
- 主交易商品粒度最近1天汇总表
3.2 层次结构
3.3 CDM核心架构
4 实施定义
建模需要不断的看书和总结以及不断的去画流程图对数据和业务的了解程度将会让你在数据的道路上事半功倍
5 建模工具
5.1 PowerDesigner
PowerDesigner是目前数据建模业界的领头羊。功能包括:完整的集成模型,和面向包含IT为中心的、非IT为中心的差异化建模诉求。
支持非常强大的元数据信息库和各种不同格式的输出。PowerDesigner拥有一个优雅且人性化的界面,非常易懂的帮助文档,快速帮助用户解决专业问题。
5.2 EZDML
5.3 Excel
通过我们最熟悉的Excel进行维护数据模型、血缘关系和元数据管理,话不多说,直接上图: