第十章 云存储技术
10.1存储概述
1.存储组网形态
存储技长是计算机的核心技术之一。 计算机的存储技术(如硬盘、网络存储、虚拟化存储等技术)的总体趋势是存储容量和I/O速度不断增加。
存储的分类
(1) DAS
DAS是指将存储设备通过SCSI ( Small Computer System Interface,小型计算机系统专用接口)接口或光纤通道直接连接到一台计算机上。顾名思义,这是为了小型计算机设计的扩充接口,它可以让计算机加装其他外设设备以提高系统性能或增加新的功能,如硬盘、光驱、扫描仪等。
(2) NAS
NAS是将存储设备连接到现有的网络上,提供数据和文件服务,应用服务器直接把File I/O请求通过LAN传给远端NAS中的文件系统,NAS中的文件系统发起Block I/O到与NAS直连的磁盘。NAS主要面向高效的文件共享任务,适用于那些需要网络进行大容量文件数据传输的场合。
(3)SAN
SAN通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非标准的网络拓扑。它是一个用在服务器和存储资源之间的,专用的、高性能的网络体系,为实现大量原始数据的传输而进行了专门的优化。
2. RAID
磁盘阵列是由喝多价格较便宜的磁盘组合而成的一个容量巨大的磁盘组,可利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。
RAID 0(至少需要两个磁盘)(无冗余)
RAID 0是没有容错设计的条带磁盘阵列,以条带形式将RAID 阵列的数据均匀分布在各个阵列中。RAID 0没有磁盘冗余,一个磁盘失败导致数据丢失。总容量=磁盘数量*磁盘容量。RAID 0可以提供8KB、16KB、32kB以及128KB等多种深度参数。
RAID 1(至少需要两个磁盘)
RAID 1以镜像作为冗余手段,虚拟磁盘中的数据有多个副本,放在成员磁盘上,具有100%事物数据冗余,但磁盘空间利用率只有50%。总容量=(磁盘数/2)磁盘容量。
RAID 3(只支持一块磁盘损坏)(至少需要三个磁盘)
RAID3(条带分布十+专用盘校验)以XOR校验冗余方式,使用专门的磁盘存放校验数据,虚拟磁盘上的数据块被分为更小的数据块并行传输到各个成员物理磁盘上,同时计算出XOR校验数据并存放到校验磁盘上。只有一个磁盘损坏的情况下,RAID 3能通过校验数据恢复损坏磁盘,但在两个以上磁盘同时损坏情况下,RAID 3不能发挥数据校验功能。总容量=(磁盘数量-1) (磁盘容量)
RAID 5(常用)(至少需要三个磁盘)
RAID 5 (条带技术+分布式校验)以XOR检验为冗余方式,校验数据均匀分布在各个数据磁盘上,对各个数据磁盘的访问为异步操作。相对于RAID 3,RAID 5改善了校验盘的瓶颈,总容量= (磁盘数-1)x (磁盘容量)
RAID 6(至少需要四个磁盘)(独立校验磁盘)
RAID 6能够允许两个磁盘同时失效的RAID级别系统,其总容量=(磁盘数-2)x(磁盘容量)
RAID 10(RAID 1 +RAID 0)
RAID 10 (镜像阵列条带化)是将镜像和条带组合起来的组合RAID级别,最低一级是RAID 1镜像对,第二级为RAID0。其总容量= (磁盘数/ 2) x (磁盘容量)。
RAID 50(RAID 5 +RAID 0)
RAID 50是将镜像和条带讲合起来的组合RAID级别、最低级是RAID 5镜像对,第级为RATD 0.其总容量=(磁盘数-1)×磁盘容量。
3.磁盘热备(不断线)
热备份是指在建立RAID磁盘阵列系统的时候,将其中一个磁盘制定为热备磁盘,此热备磁盘在平常并不操作,当阵列中某一磁盘发生故障时,热备磁盘便取代故障磁盘,并自动将故障磁盘的数据重构在热备磁盘上。
热备盘分为全局热备盘和局部热备盘。
4.快照
快照是某个时间点上逻辑卷的映像,逻辑上相当于整个快照源卷(base volume)的副本,可将快照卷分配给任何一台主机。快照卷可读取、写入或复制,需要相当于需要快照源卷(base volume) 20%的额外空间,主要用途是利用少量存储空间保存原始数据的备份,文件、逻辑卷恢复及备份、测试、数据分析等。
5.数据分级存储的概念
数据分级存储即把数据在立放在还同类别的存储设备上(磁盘、磁盘阵列、磁带)中,通过分级存储管理软件实现数据实体在存储设备之间的自动迁移。
数据存储一般分为在线存储、近线存储和离线存储三级存储方式。
10.2 云存储的概念与技术原理
云储存其实是云计算概念上发展出来的一个概念,一般包括两个含义:
1)云存储是云计算的存储部分,即虚拟化的、易于扩展的存储资源池 。用户通过云计算使用存储资源池、但不是所有的云计算的存储部分都是可以分离的。
2)云存储意味着存储可以作为一种服务,通过网络提供给用户。用户可以通过若干种方式(互联网开放接口、在线服务等)来使用存储,并按使用(时间、空间或俩者结合)付费。
从分布式存储的技术特征上看,分布式存储主要包括分布式块存储、分布式文件存储、分布式对象存储和分布式表存储4种类型。
1.分布式块存储
块存储将存储区域划分成固定大小的小块,是传统裸存设备的存储空间对外暴露方式。块存储系统将大量磁盘设备通过SCSI/SAS或FC SAN与存储服务器连接,服务器直接通过SCSI/SAS或FC协议控制和访问数据。
块存储技术特点:
1)基于传统的磁盘阵列实现,对外提供标准的FC或iSCIS协议。
2)数据访问特点:延迟低、带宽较高,但可扩展性差。
3)应用系统跟存储系统耦合程度紧密。
4)以卷的方式挂载到主机操作系统后,可格式化文件系统,或以裸数据或文件系统的方式作为数据库的存储。
2.分布式文件存储
文件存储以标准文件系统接口形式向应用系统提供海量非结构化数据存储空间。分布式文件系统把分布在局域网内各个计算机上的贡献文件夹集合成一个虚拟共享文件夹,将整个分布式文件资源以统一的视图呈现给用户。它对用户和应用程序屏蔽各个结点计算机底层文件系统的差异,提供用户方便的管理资源的手段或统一的访问接口。
3.分布式对象存储
对象存储为海量非结构化数据提供通过键-值查找数据文件的存储模式。
对象存储系统的组成部分:
1)对象:对象存储的基本单元。
2)对象存储设备:对象存储系统的核心。
3)文件系统:对用户的文件操作进行解释,并在元数据服务器和对象存储设备间通信,完成所有请求的操作。
4)元数据服务器:为客户端提供元数据。
5)网络连接:对象存储系统的重要组成部分
4.分布式表存储
分布式表存储系统的目标是管理结构化数据或半结构化数据。表存储系统用来向应用系统提供高可扩展性的表存储空间。
10.4 对象存储技术
对象存储系统的组成
1)对象:包含了文件数据以及相关的属性信息,可以进行自我管理。对象按照其职责、功能等可以将对象分为:根对象,分区对象,集合对象,用户对象。
2) OSD:一个智能设备,是对象的集合。OSD提供三个主要功能:1.数据存储 2.智能分布 3.每个对象元数据的管理。
3)文件系统:运行在客户端上, 将应用程序的文件系统请求传输到MDS和OSD上。
4) MDS:提供元数据、Cache一致性等服务。
5)网络连接:是对象存储系统的重要组成部分,将客户端、MDS和OSD连接起来,构成一个完整的系统对象存储的基本单元。
10.5 存储技术的发展趋势
- 存储虚拟化
目前最新的存储虚拟化技术有HSM、自动精减配置、云存储、分布式文件系统,另外还有诸如动态内存分区、SAN和NAS虚拟化等。 - 固态硬盘
固态硬盘是目前备受存储界广泛关注的存储新技术,被看作一种革命性的存储技术,可能会给存储行业甚至计算机体系结构带来深刻变革。
特点:体积小、能耗小、抗干扰能力强、寻址时间极小(甚至可能忽略不计)、IOPS高、I/O性能高等。 - 重复数据删除
通过删除数据集中的重复数据,只保留其中一份,从而消除冗余数据。 - SOHO存储
SOHO 存储即家庭或个人存储。SOHO存储的数据主要来自个人文档、工作文档、软件与程序源码、电影与音乐、自拍视频与照片,部分数据需要在不同设备之间共享与同步,重要数据需要备份或者在不同设备之间复制多份,需要在多台设备之间协同搜索文件,需要多设备共享的存储空间等。 - ROBO存储
ROBO存储即企业远程或分支机构存储。 - 语义化检索
数据检索目前主要分为两类,一是基于文件名,二是基于文件内容。主流文件系统的数据检索都是基于文件名进行的,桌面搜索引擎则综合文件名和文件内容进行检索,前者遍历文件系统元数据,后者需要解析文件内容,它们都是通过关键字匹配来实现检索的。语义化检索符合存储技术的发展趋势。 - 存储智能化
对于存储系统来说,智能化代表着自动化、自适应、兼容性、自治管理、弹性应用,通过对系统的监控、分析和挖掘来发现数据应用的特点和使用者的行为模式并动态调整配置,从而达到最佳的运行状态。存储智能化可以分别在存储系统栈中的不同层次实现,包括磁盘、RAID、卷管理器、文件系统、NAS系统、应用系统,从而形成系统的存储智能化。智慧的存储是存储的大趋势。