【大数据】数仓选型对比

shinelord明

已于 2024-09-20 18:13:58 修改

阅读量605

点赞数 1

分类专栏：大数据文章标签： hadoop 数据库大数据

于 2023-04-13 23:41:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wnm23/article/details/130142894

版权

大数据专栏收录该内容

49 篇文章 0 订阅

订阅专栏

数仓选型对比如下(先列举表格，后续逐个介绍)

数仓	应用目标	产品特点	适用于	适用数据类型	数据处理速度	性能拓展	实施难度	运维难度	性能优化	成本
传统数仓 (SQLServer、Oracle 等关系型数据库)	面向主题设计的，为分析数据而设计	基于Oracle、 SQLServer、MySQL 等关系型数据	在复杂关联、汇总、事务处理方面能力强，适合数据量小、高可靠、数据价值密度高的应用	多适用于结构化数据	利用处理过程的中间表，分析查询速度可比原有速度提高3~5倍	单表上亿，性能断崖式下跌，拓展性能差	难度普通，技术比较成熟	相对简单	优化的大致原理有2个：一是数据分块存储，便于数据的存储和管理；二是中间处理，提高数据提供的速度。	软件费用+实施费用，成本较低
MPP数仓 (以GreenPlum为例)	在传统数仓之上搭建并行数据库系统。充分发挥计算机的优势，提高数据库系统的整体性能	MPP架构、TB级处理，支持大量运算；关系型数据库	适合结构化数据的深度分析、复杂查询以及多变的自助分析类应用、数据集市等	关系数据方面有优势，比较适合比如电信、银行这类数据主要以结构化存储的企业或组织	相比传统数仓，速度为几倍至几十倍	性能可随着硬件的扩容呈线性增加，拥有非常好的可扩展性，扩展上限为几百	难度中等，较成熟	中等	技术角度：模型优化、查询执行计划。业务角度：全量刷新改增量刷新，减少计算量；充分利用已计算的指标	每2~3TB一个节点，硬件配置不用太高， GP产品免费，但实施优化单价较高，成本中等
Hadoop数仓	分布式数据库系统主要目的在于实现场地自治和数据的全局透明共享，而不要求利用网络中的各个节点来提高系统处理性能	Hadoop架构、 HDFS、MR和 Hive,支持海量运算；非关系型数据库；TB或更大数据量，并发多的场景	适合海量数据存储查询、批量数据ETL、非结构化数据分析等	可以基于Hadoop 开发处理结构或非结构化数据的应用，适用于互联网领域	相比传统Oracle数仓，速度为几倍至几十倍(瓶颈阈值高于 MPP数仓)	支持量高的动态扩容，扩展上限为几千	实施难度高，要求较高	较难	Hadoop性能调优不仅涉及Hadoop本身的性能调优，还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优	需要大量的节点支持，实施人员需要专业对口，同时需要对应的非通用sql支持，成本较高

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shinelord明 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。