数据存储系统概述
数据存储系统作为大数据平台最核心的数据基础,不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等特征之外,还要有虚拟化、并行分布、自动分层、弹性扩展、异构资源整合、多样性等多方面的特点,才能满足具备大数据特征的业务应用需求。针对数量的持续增长、多样性以及快速移动性等特点,我们需要采用多种大数据存储技术相结合来解决大数据存储的不断变化的多样性需求。大数据平台数据存储采用了关系型数据库Mysql、HDFS、内存存储、对象存储、网络文件存储、文档存储和归档存储等存储技术来满足不同的业务需求。
数据存储架构
-
客户端
负责把前端用户访问的请求,封装成command,传给逻辑层
-
逻辑层
主要有两个功能,一是维护数据字典,二是接受客户端的command,并把command转化成action传给物理层
-
catalog
同关系数据库的catalog
-
schema
同关系数据库的schema
-
table
同关系数据库的catalog
-
-
物理层
-
Interface
接受上层传过来的action和读取数据字典,调用Parser转化为相应的执行操作,对于关系数据库而言就是SQL Interface
-
Parser
把Action转化为底层Operator,具体流程为:根据action、数据字典和存储引擎,转化为底层引擎的操作。如上层action是创建表,底层存储引擎是mysql,转化为create table sql语句
-
Optimizer
优化Parser的解析结果
-
-
存储层
数据存储的介质,类型如下:
存储引擎类型
- mysql
- Hbase
- Hive
- Kafka
- Elasticsearch or Mongodb
- ceph
数据类型
-
关系型数据库(mysql)
-
数据仓库
数据仓库的加工链路遵循业界通用的分层理念,包括ODS、DWD、DWS和ADS。通过数据仓库不同层次之间的加工过程实现从数据资产向信息化资产转化,并且对整个过程进行有效的元数据管理及数据质量处理。
-
文档数据
-
非结构化数据
对象存储是一种海量、安全、低成本、高可靠的云存储服务。使用RESTful API 可以在互联网任何位置存储和访问,具有容量和处理能力弹性扩展并兼容多种存储类型来全面优化存储成本的特点。对象存储适合存放任意类型的文件,既可以选用高速磁盘存储也可以选择成本更低、存储期限更长的低频访问类型和归档类型的对象存储作为不经常访问数据的备份和归档。
-
内存存储
内存存储主要是充当两个作用:过热数据的缓存和计算引擎的中间数据状态。我们可以采用redis来作为内存存储。
—
原创诗词一首
雅女湖•瓦屋山
湖光青山云舒倦,秋水长天影徘徊。
美人一夜相思泪,换得梅花缓缓开。