【大数据,数仓】各大数据存储/分析架构简介及对比

1.数据处理领域相关架构概念


1.1.数据库的概念:


本质上是一个二维关系存储系统,存储结构化数据,比如某学校的学生信息表、某年级的学生成绩表等。它因为使用简单,结构化程度高,极大的促进了互联网的发展。

  

1.2.数据仓库:


本质上是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,是比数据库范围更大的库。所谓面向主题,它指的是数据仓库内的信息按照某个主题进行聚合,比如地区、成本、商品、收入、利润等等;所谓集成的,它指的是可以把不同数据库中的数据都汇聚在一起;所谓相对稳定的,它指的是数据仓库的数据不会像操作型数据库那样经常变化;所谓反映历史变化,它指的是数据仓库内的信息不只是反映企业当前情况,还可以记录分析从过去某一个时间点到现在的变化。

                        

1.3.数据集市:


它是一个小型的数据仓库,只关注某一个主题,比如只关注成本,那么它就会只收录成本相关的数据。数据集市可以理解为:是一个小型的部门或工作组级别的数据仓库。有两种类型的数据集市——独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。

1.4.数据湖:


它是一个比数据仓库更大、对于数据也没有任何限制的大型仓库,

里面的数据像湖水一样可以自然流动,数据可以供存储、处理、分析。

在数据湖中,存储的数据没有经过任何的处理,是直接从源系统导入的数据,

它包含结构化数据、非结构化数据、半结构化数据, 也是数据仓库的数据来源。此外,(常见的数据湖工具 hudi等)

核心概念:是允许收集和存储大量数据而无需立即处理或分析所有数据。

数据湖的最终用户是数据科学家和工程师

1.5.数据中台:


 本质上是服务于业务的数据分析系统,它从一出生开始就是为业务而生。

它包含数据埋点、数据接入标准化、数据仓库抽象化、数据治理、数据服务五大模块,打通了人、物、场多个维度,更好的为前台去服务。

此外在数据中台的建设中,企业组织文化也非常重要,它需要联动各个业务线去接入这套系统,标准化治理与管理,但在数据仓库的建设过程是不需要关注这一层次的。

因此数据中台是数据仓库的又一次质的飞跃。

2.数仓和各大数据处理架构的对比


2.1.数据湖和数据仓库的对比:


6个角度综述数据湖与数据仓库的区别 

1、数据结构:数据仓库只能存储经过处理和提炼的数据,而数据湖存储尚未出于某种目的处理的原始数据。因此,数据湖需要比数据仓库大得多的存储容量,且数据灵活、分析迅速,非常适合机器学习。

2、加工:数据仓库使用写入时序模式的方法来处理数据以赋予其形状和结构,而数据湖对原始数据使用读取模式来处理它。

3、成本:存储在数据仓库中的成本可能很高,尤其是在有大量数据的情况下,而数据湖是专为低成本数据存储而设计,成本更低廉。这就解释了为什么许多公司更喜欢数据湖。

4、目的:数据仓库的好处之一是存储空间不会浪费在可能不会使用的数据上,所以数据仓库仅保存已用于特定目的的已处理数据。而数据湖存储原始数据,这些原始数据有时具有特定的未来用途,有时仅用于囤积。因此,数据湖中的数据组织和过滤较少。

5、用户:数据仓库主要由熟悉已处理数据主题的 IT 或业务专业人员所使用,而数据湖中的非结构化数据通常需要数据科学家或工程师在使用数据之前组织数据湖。

6、可访问性:数据仓库是按设计构建的,因此难以访问和操作。相比之下,数据湖几乎没有限制,并且易于访问和更改,数据支持快速更新。这算是数据湖的关键优势之一。    

                                                  (数据仓库和数据湖的区别)

2.2.数仓和数据集市的对比:


数据集市是一个结构概念:它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。

1、数据规模层面:数据仓库向各个数据集市提供数据。前者是企业级的,规模较大,后者是部门级的,相对规模较小。

2、开发周期:若干个部门的数据集市组成一个数据仓库。数据集市开发周期短、速度快,数据仓库开发周期长、速度慢。

3、数据结构:从其数据特征进行分析,数据仓库中数据结构采用规范化模式(3大范式),数据集市中的数据结构采用星形模式。

通常数据仓库中的数据粒度比数据集市的粒度要细。

数据集市有两种:

一种是独立数据集市:这类数据集市有自己的源数据库和ETL架构;

另一种是非独立数据集市:这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。

数据集市应用场景:数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求,一般用于商业智能系统中探索式和交互式数据分析应用。

数据集市的由来:为了适应灵活性的要求,数据仓库需要存储各种历史数据。于是,对于特定的用户,TA所需要的信息就需要在许多张很大的表上连接后得到结果,这样就无法满足用户对快速访问的性能需求。为了解决灵活性和性能之间的矛盾,数据仓库体系结构中增加了数据集市,数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的需求。带有数据集市的体系结构如图所示

  

  (数据集市和数仓的应用实例)

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值