数仓选型对比

1、数仓选型对比如下(先列举表格,后续逐个介绍)

数仓应用目标产品特点适用于 适用数据类型数据处理速度性能拓展 实施难度运维难度性能优化成本
传统数仓

(SQLServer、Oracle

等关系型数据库)
面向主题设计的,为
分析数据而设计
基于Oracle、
SQLServer、MySQL
等关系型数据
在复杂关联、汇总、
  事务处理方面能力
强,适合数据量小、
高可靠、数据价值密
度高的应用
多适用于结构化数据利用处理过程的中间
表,分析查询速度可
比原有速度提高3~5倍
单表上亿,性能断崖
式下跌,拓展性能差
难度普通,
技术比较成熟
相对简单优化的大致原理有2个:
一是数据分块存储,便
于数据的存储和管理;
二是中间处理,提高数
据提供的速度。
软件费用+实施费用,
成本较低
MPP数仓

(以GreenPlum为例)
在传统数仓之上搭建
并行数据库系统。充
  分发挥计算机的优
势,提高数据库系统

的整体性能
MPP架构、TB级处
理,支持大量运算;
关系型数据库
适合结构化数据的深
度分析、复杂查询以
及多变的自助分析类
  应用、数据集市等
关系数据方面有优
势,比较适合比如电
信、银行这类数据主
要以结构化存储的企

业或组织
相比传统数仓,速度
为几倍至几十倍
性能可随着硬件的扩
容呈线性增加,拥有
非常好的可扩展性,
扩展上限为几百
难度中等,
较成熟
中等技术角度:模型优化、
查询执行计划。业务角
度:全量刷新改增量刷
新,减少计算量;充分
利用已计算的指标
每2~3TB一个节点,
硬件配置不用太高,
GP产品免费,但实
施优化单价较高,成
本中等
Hadoop数仓分布式数据库系统主
要目的在于实现场地
自治和数据的全局透
明共享,而不要求利
用网络中的各个节点
来提高系统处理性能
Hadoop架构、
HDFS、MR和
Hive,支持海量运
算;非关系型数据
库;TB或更大数据
量,并发多的场景
适合海量数据存储查
询、批量数据ETL、
非结构化数据分析等
可以基于Hadoop

开发处理结构或非结
构化数据的应用,适
用于互联网领域
相比传统Oracle数
仓,速度为几倍至几
十倍(瓶颈阈值高于
MPP数仓)
  支持量高的动态扩
容,扩展上限为几千
实施难度高,
要求较高
较难Hadoop性能调优不
仅涉及Hadoop本身
的性能调优,还涉及更
底层的硬件、操作系统
  和Java虚拟机等系统
的调优
需要大量的节点支
持,实施人员需要专
业对口,同时需要对
应的非通用sql支
持,成本较高
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值