数据仓库
张之海
硕士毕业于东北大学,现就职于北京某猫头鹰公司,大数据工程师职位。
展开
-
数仓搭建好文
数仓搭建好文[1] 5分钟看懂:如何构建一个数据仓库?——与数据同行公众号原创 2021-04-02 11:08:58 · 191 阅读 · 0 评论 -
数仓理论 —— 用户画像
1 用户画像简介用户画像,即用户信息标签化。通过用户各个维度的信息,描述用户。用户画像建模,即给用户“打标签”。标签类型,可分为三类:统计类:用户的基本属性。如性别等维度,活跃天数等。规则类:在统计类标签的基础上,加规则,进一步限制。如“近30天交易次数>=2”的用户才算“消费活跃”。机器学习挖掘类:没有准确的数值,通过算法预测而来的信息。例如通过用户的行为习惯判断用户的性别。2 用户画像实例2.1 画像表结构设计表结构设计的重点:存储哪些信息、如何存储(数据分区)、如何应用(如原创 2021-01-22 15:17:09 · 592 阅读 · 0 评论 -
数仓理论 —— 缓慢变化维
1 什么是维度参考网址:深入解析数据仓库中的缓慢变化维在数据仓库的DW层中,表根据用途往往会分为2个类型:FACT(事实表)和 DIM(维度表)。举个例子,如果我们要描述一个餐饮过程: 小明 2020年4月19日下午3点20分 在 海底捞(万达广场) 吃了5道菜,每道菜的单价是4元,总价是20元。那么这个过程在数仓中,会如此划分:fact:餐饮过程,单价、数量、总价dim:小明,餐饮时间,餐饮门店,菜名。也就是说:吃了多少东西,多少钱——这些属于fact;在哪里吃、什么时候吃?这些原创 2021-01-07 20:36:59 · 520 阅读 · 0 评论 -
数仓理论 —— 数据分层
1 为什么分层1.1 数据仓库分层ODS(Operation Data Detail):原始数据层,直接加载原始日志、数据,不做任何处理。(备份作用)DWD(Data Warehouse detail):明细数据层,结构和粒度与原始数据层保持一致,对ODS层数据进行清洗(一条,去除空值,脏数据,超过极限范围的数)DWS(Data Warehouse Service):服务数据层,以DWD为基础,按天进行轻度汇总。(一天,eg:用户一天下单多少次)DWT(Data Warehouse Topic):原创 2020-12-28 13:45:14 · 392 阅读 · 0 评论