数据集市是什么?

本文介绍了数据集市的概念,包括它与数据仓库的区别,详细阐述了依赖数据仓库、独立数据集市和混合数据集市三种类型。数据集市具有响应时间快、数据量小、处理效率高等特点,适合需要快速访问特定数据集的场景。文章还概述了数据集市的实施步骤,包括设计、建设、填充、访问和管理。数据集市作为成本效益高的解决方案,能提高效率并加速实施。
摘要由CSDN通过智能技术生成

一、数据集市简介

在数据仓库环境中用于检索客户端数据的模式称为数据集市。它是数据仓库特有的结构,供团队中的业务领域使用。每个组织都有一个位于数据仓库存储库中的数据集市。不同类型的数据集市是从属的、独立的和混合的数据集市。从属数据集市获取已经创建的数据,而独立数据集市从外部源和数据仓库获取数据。我们可以将数据集市称为数据仓库的逻辑子集。

1.1、数据集市与数据仓库

数据仓库是一个包含来自多个主题流的数据集合的仓库。维护和控制部分,如原始数据的收集和处理,主要由企业信息技术 IT 小组处理,该小组为上级组织提供各种服务。

数据仓库也称为中央或企业数据仓库。因此,在某些情况下,数据仓库的来源将是多个,而数据集市是数据仓库的一个子集。

二、数据集市的类型

在这里插入图片描述

2.1. 依赖数据仓库

依赖数据集市纯粹来自数据仓库,所有分组的依赖将形成企业数据仓库。它纯粹是数据仓库的一个子集,因为它是从中央 DW 创建的。

由于中央数据仓库 ETT 流程或提取转换和传输中已经存在干净和汇总的数据,因此简化了。我们只需要在这里识别特定的子集并在其上执行 ETT。

这些数据集市通常旨在通过更好的控制和效率实现更好的可用性和大量改进的性能

2.2. 独立数据集市

这不是从中央数据仓库创建的,其来源可能不同。由于数据来自中央 DW 之外的其他 ETT 过程有点不同。

大多数独立数据集市被较小的组织使用,其来源也有限。当我们需要在相对较短的时间内获得解决方案时,通常会创建独立数据集市。

2.3. 混合数据集市

混合数据集市将允许您将来自中央数据仓库 DW 以外的所有其他来源的数据分组。当我们处理临时集成时,这将大大有利于外部添加到组织的所有产品的顶级工作。

三、数据集市的特点

以下是一些功能:

  • 由于数据源集中于主体,因此通过使用它可以提高用户响应时间。
  • 对于经常需要的数据,使用数据集市将是有益的,因为它是中央 DW 的子集,因此数据大小会更小。
  • 此外,由于数据量有限,与中央 Dws 相比,处理时间将大大减少。
  • 这些基本上是敏捷的,与数据仓库相比,可以非常快速有效地适应模型中的变化。
  • 与仓库数据相比,Datamart 需要单个主题专家来处理我们在多个主题仓库中所需的专业知识。正因为如此,我们说数据集市更敏捷。
  • 我们可以使用分区数据和数据集市将访问类别隔离到较低级别,这很容易。
  • 基础设施依赖性非常有限,数据可以在分段后存储在不同的硬件平台上。

四、数据集市的优点

  • 对于您只需要处理一小部分数据的数据仓库,它是最具成本效益的替代方案之一。
  • 从源中分离数据将使数据集市高效,因为特定的一组人可以处理来自特定源的数据,而不是所有人都使用数据仓库。
  • 如果我们知道需要访问哪个子集,则可以使用数据集市更快地访问数据。
  • 数据集市更易于使用,因此最终用户可以轻松地对其进行查询。
  • 由于数据是按组隔离的,因此与数据仓库相比,进入实施时间数据集市所需的时间更少。
  • 来自特定主题的历史数据可用于轻松的趋势分析。

因为它集中在一个单一的功能领域,所以对流程实施者和最终用户都有许多好处。因此,需要高效的集市实施以及组织中的数据仓库。

五、实施数据集市的步骤

在这里插入图片描述

  1. 设计
    这将是实施的第一步,其中确定了收集技术和业务信息所需的所有任务和来源。稍后实施逻辑计划,经过审查,这将转换为物理计划。此外,这里决定了数据的逻辑和物理结构,例如如何分区数据和分区字段,如日期或任何其他文件。

  2. 施工
    这是实施的第二个阶段,在 RDBMS 的帮助下生成物理数据库,被确定为设计过程和逻辑结构的一部分。创建所有对象,如schema、索引、表、视图等。

  3. 填充
    这是第三阶段,这里在获取数据时将数据填充到其中。所有必需的转换都在填充数据之前实现。

  4. 访问
    这是实施的下一步,我们将使用填充的数据进行查询以创建报告。最终用户使用此步骤来了解使用查询的数据。

  5. 管理
    这是数据集市实施的最后阶段,这里处理各种任务,例如访问管理、系统优化以及调整、管理和向数据集市添加新数据以及规划恢复场景以处理任何故障情况。

关注我的公众号【宝哥大数据】,更多干货

在这里插入图片描述

数据仓库数据集BI数据分析介绍 数据仓库数据集BI数据分析介绍全文共35页,当前为第1页。 议程 数据仓库概念及由来 基本概念 产生背景 数据仓库搭建 数据整合 数据建模 数据管控 3. Oracle数据仓库产品介绍 数据仓库数据集BI数据分析介绍全文共35页,当前为第2页。 什么是数据仓库 广州品高软件开发有限公司 3 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。 数据仓库数据集BI数据分析介绍全文共35页,当前为第3页。 数据仓库的特点 广州品高软件开发有限公司 4 面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 数据仓库数据集BI数据分析介绍全文共35页,当前为第4页。 几个相关的概念 广州品高软件开发有限公司 5 BIBusiness Intelligence,即商业智能,一类由数据仓库(或数据集)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用 数据集:面向特定主题和部门级的数据仓库,是数据仓库的子集,数据仓库是 提供跨部门的,统一数据视图 OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作 ,侧重决策支持,并且提供直观易懂的查询结果 数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等 OLTP on-line transaction processing,传统的关系型数据库的主要应用,主要是基本的 、日常的事务处理,例如银行交易 数据仓库数据集BI数据分析介绍全文共35页,当前为第5页。 数据仓库与OLTP系统的差别 广州品高软件开发有限公司 6 对比项 OLTP 数据仓库(OLAP) 用户 操作人员、底层管理人员 决策人员,高级管理人员 功能 日常操作处理 分析决策 DB设计 面向应用 面向主题 数据 原始数据、细节性数据、当前值数据、可更新、一次处理的数据量小 导出数据、综合性数据、历史数据、不可更新但周期性刷新,一次处理的数据量大 工作单位 简单的事务 复杂的查询 用户数 上千个 上百个 DB大小 100MB-GB 100GB-TB 数据仓库数据集BI数据分析介绍全文共35页,当前为第6页。 数据仓库是怎么产生的 广州品高软件开发有限公司 7 在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行,积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。 数据可信性:两个部门提供的数据是不一样的,让管理者无所适从 报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定义不一致所致不可能把数据转换成信息 数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离 历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信息: 数据仓库数据集BI数据分析介绍全文共35页,当前为第7页。 数据仓库解决的问题 1. 企业范围内的信息共享 2. 准确、一致的集成数据 3. 面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的、相对完整的数据视图,能够进行快速访问,精确、灵活分析 数据仓库数据集BI数据分析介绍全文共35页,当前为第8页。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值