数据仓库与数据湖的区别

本文探讨了数据湖和数据仓库的区别。数据湖以本机格式存储原始数据,适合存储不同结构的数据,而数据仓库基于预定义架构,适用于基本BI和报告。数据仓库提供集中式数据源,易于非专业人员分析;数据湖则更适合数据科学家进行高级分析。企业可能结合使用两者以满足不同分析需求。
摘要由CSDN通过智能技术生成

数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。

1.什么是数据湖?

数据湖通常是一个庞大的存储库,以本机格式存储原始数据。数据湖的一个好处是它
可以存储不同结构的数据,而不仅仅是传统的结构化数据。每个存储的数据元素都有
一个唯一的标识符和元数据标记,因此在需要时可以更容易地查询。但是,当数据被
提取时,数据湖不需要预定义的模式。相反,数据科学家和其他分析师可以将架构应
用于数据集,并在提取过程完成后根据特定的分析需求对其进行筛选。

当数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数
据的不断涌入,架构选项已经增加到包括其他大数据平台。许多T供应商现在还支持
云中的数据湖,通常将Spak处理引擎和云对象存储服务结合起来。

2.什么是数据仓库

数据仓库是由业务应用程序生成或收集的数据的存储库,然后存储用于预定的分析目
的。大多数数据仓库都建立在关系数据库上,因此,它们确实对数据应用了预定义的
架构。此外,在加载数据之前,通常必须按照预期用途对数据进行清理、整合和组
织。

由于数据仓库中的数据已经被处理,因此进行高级分析相对容易。业务经理和其他不
熟练的数据或分析专业人员可以使用自助BI工具(比如FineBl)自行访问和分析数
据。企业数据仓库为整个组织提供集中的数据存储库,同时可以为各个部门设置较小
的数据集市。与数据湖一样,云数据仓库越来越多地被部署为本地数据仓库的替代方

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值