数据中台实战

01 | 前因后果:为什么说数据中台是大数据的下一站?数据仓库的出现四要素:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。(像商品、交易、用户、流量都能作为一个主题域,你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放,一般会保留 5 年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。)恩门建模 ...
摘要由CSDN通过智能技术生成

01 | 前因后果:为什么说数据中台是大数据的下一站?

数据仓库的出现

  • 四要素:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。(像商品、交易、用户、流量都能作为一个主题域,你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放,一般会保留 5 年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。)

  • 恩门建模 从数据的来源出发 实体。买家、商品是一个实体,买家购买商品是一个关系。所以,模型设计应该有买家表,商品表,和买家商品交易表三个模型(宽表)

  • 更推荐 金博尔建模 从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。

  • 在模型设计上,提出了数据仓库模型设计的方法论

  • 互联网时代,有两个变化:数据规模前所未有;数据类型变得异构化(App、Web 的前端埋点数据,或者业务服务器的后端埋点日志,这些数据一般都是半结构化,甚至无结构的)

Hadoop 相比传统数据仓库 有两个优势:

  • 完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;
  • 弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求
  • 随着 Hadoop 技术日趋成熟, 提出了数据湖的概念
  • 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统
  • 基于 Hadoop 构建数据湖,将数据作为一种企业核心资产
  • 但是一个商用的 Hadoop 包含 20 多种计算引擎, 数据研发涉及流程非常多,技术门槛限制了 Hadoop 的商用化进程。那么如何让数据的加工像工厂一样,直接在设备流水线上完成呢?

数据工厂时代:大数据平台兴起

  • 数据开发流程

在这里插入图片描述

  • 概念: 就是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。
  • 大数据平台
  • 在这里插入图片描述
  • Hive、Spark、Flink、Impala 提供了大数据计算引擎:

Hive、Spark 主要解决离线数据清洗、加工的场景,目前,Spark 用得越来越多,性能要比 Hive 高不少;
Flink 主要是解决实时计算的场景;
Impala 主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为 Yarn 的资源调度管理框架内,由 Yarn 来分配计算资源。目前最新的研究方向中也有基于 Kubernetes 实现资源调度的,例如在最新的 Spark 版本(2.4.4)中,Spark 已经能够运行在 Kubernetes 管理的集群上,这样的好处是可以实现在线和离线的资源混合部署,节省机器成本。
数据存储在 HDFS、Kudu 和 HBase 系统内。
HDFS 不可更新,主要存全量数据,
HBase 提供了一个可更新的 KV,主要存一些维度表,
Kudu 提供了实时更新的能力,一般用在实时数仓的构建场景中。
大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个报表或者数据产品中。

  • 随着数据需求的快速增长,报表、指标、数据模型越来越多,找不到数据,数据不好用,数据需求响应速度慢等问题日益尖锐,成为阻塞数
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值