【大数据】数仓选型对比

数仓选型对比如下(先列举表格,后续逐个介绍)

数仓应用目标产品特点适用于 适用数据类型数据处理速度性能拓展 实施难度运维难度性能优化成本
传统数仓

(SQLServer、Oracle

等关系型数据库)
面向主题设计的,为
分析数据而设计
基于Oracle、
SQLServer、MySQL
等关系型数据
在复杂关联、汇总、
  事务处理方面能力
强,适合数据量小、
高可靠、数据价值密
度高的应用
多适用于结构化数据利用处理过程的中间
表,分析查询速度可
比原有速度提高3~5倍
单表上亿,性能断崖
式下跌,拓展性能差
难度普通,
技术比较成熟
相对简单优化的大致原理有2个:
一是数据分块存储,便
于数据的存储和管理;
二是中间处理,提高数
据提供的速度。
软件费用+实施费用,
成本较低
MPP数仓

(以GreenPlum为例)
在传统数仓之上搭建
并行数据库系统。充
  分发挥计算机的优
势,提高数据库系统

的整体性能
MPP架构、TB级处
理,支持大量运算;
关系型数据库
适合结构化数据的深
度分析、复杂查询以
及多变的自助分析类
  应用、数据集市等
关系数据方面有优
势,比较适合比如电
信、银行这类数据主
要以结构化存储的企

业或组织
相比传统数仓,速度
为几倍至几十倍
性能可随着硬件的扩
容呈线性增加,拥有
非常好的可扩展性,
扩展上限为几百
难度中等,
较成熟
中等技术角度:模型优化、
查询执行计划。业务角
度:全量刷新改增量刷
新,减少计算量;充分
利用已计算的指标
每2~3TB一个节点,
硬件配置不用太高,
GP产品免费,但实
施优化单价较高,成
本中等
Hadoop数仓分布式数据库系统主
要目的在于实现场地
自治和数据的全局透
明共享,而不要求利
用网络中的各个节点
来提高系统处理性能
Hadoop架构、
HDFS、MR和
Hive,支持海量运
算;非关系型数据
库;TB或更大数据
量,并发多的场景
适合海量数据存储查
询、批量数据ETL、
非结构化数据分析等
可以基于Hadoop

开发处理结构或非结
构化数据的应用,适
用于互联网领域
相比传统Oracle数
仓,速度为几倍至几
十倍(瓶颈阈值高于
MPP数仓)
  支持量高的动态扩
容,扩展上限为几千
实施难度高,
要求较高
较难Hadoop性能调优不
仅涉及Hadoop本身
的性能调优,还涉及更
底层的硬件、操作系统
  和Java虚拟机等系统
的调优
需要大量的节点支
持,实施人员需要专
业对口,同时需要对
应的非通用sql支
持,成本较高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shinelord明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值