数据集市与数据仓库的区别

南湖渔歌

于 2023-02-25 15:08:50 发布

阅读量1.7k

点赞数 1

分类专栏：认识数据文章标签：数据仓库数据库数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44976611/article/details/129215965

版权

认识数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据仓库为企业提供全面决策支持，而数据集市服务于部门需求。从属数据集市直接来源于中央仓库，保持数据一致性；独立数据集市则从生产系统获取数据。在云时代，数据集市常采用宽表结构，便于BI分析，因人工成本高于存储成本，宽表在成本和效率上有优势。

摘要由CSDN通过智能技术生成

数据仓库是企业级的，能为整个企业各个部门的运作提供决策支持；而数据集市则是部门级的，一般只能为某个局部范围内的管理人员服务，因此也称之为部门级数据仓库。

1、两种数据集市结构

数据集市按数据的来源分为以下两种

（1）从属数据集市
在这里插入图片描述

所谓从属，是指其数据直接来自于中央数据仓库。该结构能保持数据的一致性。

一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市，能提高查询反应速度。

（2）独立数据集市
在这里插入图片描述
独立数据集市的数据子集来源于各生产系统，许多企业在计划实施数据仓库时，往往处于投资方面的考虑，首先建成独立数据集市，用来解决个别部门较迫切的决策问题。

2、数据仓库与数据集市的区别

（1）数据仓库：基于整个企业的数据模型建立，面向企业范围内的主题；

数据集市：按照某一特定部门的数据模型建立的，由于每个部门有自己特定的需求，因此，他们对数据集市的期望也不同。部门主题与企业主题之间可能存在关联，也可能不存在。

（2）数仓存储整个企业内非常详细的数据；数据集市数据详细程度低一些，包含概要和综合数据多一些。

（3）数据集市的数据组织一般采用星形模型。大型数仓的数据组织，星形或雪花形都可以。

（4）数据集市较少保留历史数据。

@二东东
RE: （3）数据集市的数据组织一般采用星形模型。大型数仓的数据组织，星形或雪花形都可以。

在云上数据仓库时代(Redshift, BigQuery, Snowflake 出现的2016年之后)数据集市的数据组织一般采用宽表Wide Table就好了因为：
宽表可以直接用于BI或者分析师进行分析（他们习惯于直接分析一个二维表格，而不是拿星形模型再去join）星形模型的cost优势不存在了因为在云上数据仓库时代贵的是人工而不是数据存储所以最省时省力可直接分析的的宽表在成本上才有优势至于星型模型的另外两个优势performance and understandability 也是不如宽表的
综上在这个时代数据集市的数据组织应该是宽表

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据集市与数据仓库的区别

数据集市：按照某一特定部门的数据模型建立的，由于每个部门有自己特定的需求，因此，他们对数据集市的期望也不同。而数据集市则是部门级的，一般只能为某个局部范围内的管理人员服务，因此也称之为部门级数据仓库。独立数据集市的数据子集来源于各生产系统，许多企业在计划实施数据仓库时，往往处于投资方面的考虑，首先建成独立数据集市，用来解决个别部门较迫切的决策问题。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市，能提高查询反应速度。（3）数据集市的数据组织一般采用星形模型。数据集市按数据的来源分为以下两种。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。