数据中台实战

最新推荐文章于 2024-06-15 13:02:09 发布

weixin_43805387

最新推荐文章于 2024-06-15 13:02:09 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43805387/article/details/105722954

版权

01 | 前因后果：为什么说数据中台是大数据的下一站？数据仓库的出现四要素：数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的，不可修改的数据集合。（像商品、交易、用户、流量都能作为一个主题域，你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放，一般会保留 5 年以上，每个时间分区内的数据都是追加写的方式，对于某条记录是不可更新的。）恩门建模 ...

摘要由CSDN通过智能技术生成

01 | 前因后果：为什么说数据中台是大数据的下一站？

数据仓库的出现

四要素：数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的，不可修改的数据集合。（像商品、交易、用户、流量都能作为一个主题域，你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放，一般会保留 5 年以上，每个时间分区内的数据都是追加写的方式，对于某条记录是不可更新的。）
恩门建模从数据的来源出发实体。买家、商品是一个实体，买家购买商品是一个关系。所以，模型设计应该有买家表，商品表，和买家商品交易表三个模型（宽表）
更推荐金博尔建模从数据分析的需求出发，拆分维度和事实。那么用户、商品就是维度，库存、用户账户余额是事实。
在模型设计上，提出了数据仓库模型设计的方法论
互联网时代，有两个变化：数据规模前所未有；数据类型变得异构化（App、Web 的前端埋点数据，或者业务服务器的后端埋点日志，这些数据一般都是半结构化，甚至无结构的）

Hadoop 相比传统数据仓库有两个优势：

完全分布式，易于扩展，可以使用价格低廉的机器堆出一个计算、存储能力很强的集群，满足海量数据的处理要求；
弱化数据格式，数据被集成到 Hadoop 之后，可以不保留任何数据格式，数据模型与数据存储分离，数据在被使用的时候，可以按照不同的模型读取，满足异构数据灵活分析的需求
随着 Hadoop 技术日趋成熟，提出了数据湖的概念
数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统
基于 Hadoop 构建数据湖，将数据作为一种企业核心资产
但是一个商用的 Hadoop 包含 20 多种计算引擎，数据研发涉及流程非常多，技术门槛限制了 Hadoop 的商用化进程。那么如何让数据的加工像工厂一样，直接在设备流水线上完成呢？

数据工厂时代：大数据平台兴起

数据开发流程

在这里插入图片描述

概念：就是为了提高数据研发的效率，降低数据研发的门槛，让数据能够在一个设备流水线上快速地完成加工。
大数据平台
Hive、Spark、Flink、Impala 提供了大数据计算引擎：

Hive、Spark 主要解决离线数据清洗、加工的场景，目前，Spark 用得越来越多，性能要比 Hive 高不少；
Flink 主要是解决实时计算的场景；
Impala 主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为 Yarn 的资源调度管理框架内，由 Yarn 来分配计算资源。目前最新的研究方向中也有基于 Kubernetes 实现资源调度的，例如在最新的 Spark 版本（2.4.4）中，Spark 已经能够运行在 Kubernetes 管理的集群上，这样的好处是可以实现在线和离线的资源混合部署，节省机器成本。
数据存储在 HDFS、Kudu 和 HBase 系统内。
HDFS 不可更新，主要存全量数据，
HBase 提供了一个可更新的 KV，主要存一些维度表，
Kudu 提供了实时更新的能力，一般用在实时数仓的构建场景中。
大数据平台像一条设备流水线，经过大数据平台的加工，原始数据变成了指标，出现在各个报表或者数据产品中。

随着数据需求的快速增长，报表、指标、数据模型越来越多，找不到数据，数据不好用，数据需求响应速度慢等问题日益尖锐，成为阻塞数

最低0.47元/天解锁文章

weixin_43805387

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
数据中台实战

01 | 前因后果：为什么说数据中台是大数据的下一站？数据仓库的出现四要素：数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的，不可修改的数据集合。（像商品、交易、用户、流量都能作为一个主题域，你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放，一般会保留 5 年以上，每个时间分区内的数据都是追加写的方式，对于某条记录是不可更新的。）恩门建模 ...
复制链接

扫一扫