云数据仓库的未来趋势：计算存储分离

阿里云云栖号

于 2021-05-28 14:01:19 发布

阅读量2k

点赞数 1

分类专栏：云栖号技术分享文章标签：数据仓库云计算

本文链接：https://blog.csdn.net/yunqiinsight/article/details/117360822

版权

简介： 随着云时代的到来，数据库也开始拥抱云数据库时代，各类数据库系统在各内外云平台百花齐放，有开源的MySQL、PostgreSQL、MongoDB，传统数据库厂商的SQLServer、Oracle，云厂商自研的Aurora、Redshift、PolarDB、AnalyticDB、AzureSQL等。

作者 | 尚春
来源 | 阿里技术公众号

一背景

随着云时代的到来，数据库也开始拥抱云数据库时代，各类数据库系统（OLTP、OLAP、NoSQL等）在各内外云平台（AWS、Azure、阿里云）百花齐放，有开源的MySQL、PostgreSQL、MongoDB，传统数据库厂商的SQLServer、Oracle，云厂商自研的Aurora、Redshift、PolarDB、AnalyticDB、AzureSQL等。有些数据库还处于Cloud Hosting阶段，仅仅是将原有架构迁移到云主机上，利用了云的资源。有些数据库则已经进入了Cloud Native阶段，基于云平台IAAS层的基础设施，构建弹性、serverless、数据共享等能力。

本文主要介绍阿里云云原生数据仓库AnalyticDB MySQL版（以下简称AnalyticDB）过去几年在弹性方向上的探索和成果。

二为什么要计算存储分离

MPP（Massive Parallel Processing）架构为OLAP类数据库最普遍采用的技术架构。在MPP架构下，计算存储共享一个节点，每个节点有自己独立的CPU、内存、磁盘资源，互相不共享。数据经过一定的分区规则（hash、random、range），打散到不同的节点上。处理查询时，每个节点并行处理各自的数据，互相之间没有资源争抢，具备比较好的并行执行能力。

这种将存储资源、计算资源紧密耦合的架构，不太容易满足云时代不同场景下的不同workload需求。例如数据导入类的任务，往往需要消耗比较大的IO、网络带宽，而CPU资源消耗不大。而复杂查询类任务往往对CPU的资源消耗非常大。因此面对这两种不同的workload，在选择资源规格时，需要结合不同的workload分别做不同的类型选择，也很难用一种资源规格同时满足这两种类型。因为业务不停在发展，workload也不停在变化，比较难提前做好规划。

当业务发展，对CPU资源提出了更高的需求，我们扩容集群扩充CPU资源时，也会引发数据的reshuffle，这会消耗比较大的网络带宽、以及CPU资源。即便是基于云平台构建的数据仓库，在查询低峰期时，也无法通过释放部分计算资源降低使用成本，因为这同样会引发数据的reshuffle。这种耦合的架构，限制了数据仓库的弹性能力。

而

最低0.47元/天解锁文章

阿里云云栖号

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
云数据仓库的未来趋势：计算存储分离

简介：随着云时代的到来，数据库也开始拥抱云数据库时代，各类数据库系统在各内外云平台百花齐放，有开源的MySQL、PostgreSQL、MongoDB，传统数据库厂商的SQLServer、Oracle，云厂商自研的Aurora、Redshift、PolarDB、AnalyticDB、AzureSQL等。作者 | 尚春来源 | 阿里技术公众号一背景随着云时代的到来，数据库也开始拥抱云数据库时代，各类数据库系统（OLTP、OLAP、NoSQL等）在各内外云平台（AWS、Azure、阿里云）百.
复制链接

扫一扫