数据仓库(对比数据库,数据湖)

1.数据仓库简介

数据仓库是一个面向主题的,集成性的,非易失性的,时变性的数据集合,用于管理决策。

数据仓库解决的问题:

  • 为业务部门提供准确清晰的报表
  • 为管理人员提供更强的分析能力
  • 为数据挖掘和知识发现奠定基础

面向主题

数据仓库内的数据是针对特定的业务主题。数据仓库将与特定主题相关的数据整合到一起,方便企业进行全面的数据分析。

例如“销售分析”就是一个分析领域,因此这个数据仓库应用的
主题就是“销售分析”。

集成性

数据仓库内的数据来自多个数据源,并通过转换,整合成为统一的数据模型

这是因为源数据一般都是有不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。
“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的
数据集合。

非易失性

数据仓库的非易失性是指数据仓库内的数据是持久存储的,不会因为计算机系统故障或其他原因而丢失。

时变性

数据仓库的时变性指的是数据仓库中存储的数据具有时间上的变化性质。也就是说,数据仓库中的数据不仅仅反映当前状态,还包含了过去和可能的未来状态。

2.数据仓库和数据库的对比

功能数据仓库数据库
数据范围存储完整的,反应历史变化的数据当前状态的数据
数据变化可添加,无删除,无变更支持频繁的增删改查
应用场景面向分析和战略决策面向业务交易流程
设计理论不遵守范式。适当冗余遵照范式,避免冗余
处理量批量大,高吞吐,有延迟批量小,高并发,低延迟

3.数据仓库和数据湖的对比

什么是数据湖?

数据湖是一种存储数据的系统,使用自然格式储存大型二进制对象或文件。它集中存储企业内各种来源的数据,包括原始副本和经过转换的数据,如用于报表、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文件、PDF)和二进制数据(如图像、音频、视频)。物理上,数据湖是一个数据存储平台,用于集中存储大量多源多类型的企业数据,并支持快速加工和分析。常见的部署技术包括Hadoop,但并非指特定的Hadoop集群。企业中也出现了结合MPP数据库、Hadoop集群和传统数据仓库的混搭架构的数据湖。

数据湖数据仓库
能处理所有类型的数据(结构化,半结构化…),数据的类型依赖于数据源系统的原始数据格式只能处理结构化数据,这些数据必须于数据仓库事先定义的模型吻合
分析后的数据会被存储起来供用户使用处理结构化数据,将数据转化为多维数据,报表等,以满足后续的高级报表及数据分析需求
数据湖通常包含更多相关的信息,这些信息有很高概率会被访问到,并且能够为企业挖掘新的运营需求数据仓库通常用于存储和维护长期数据,因此数据可以按需访问
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值