1.1面临的挑战
1系统问题:面对大数据的爆炸式增长,且具有大数据量,异构型,高时效性的需求时,数据的存储不仅仅有存储容量的压力,还给系统的存储性能,数据管理乃至大数据的应用方面带来了挑战。
2:管理问题:这些大量的数据复杂,种类繁多,如何对分布,多态,异构的大数据进行管理的问题已经不期而至,传统的数据存储方式面对大数据的猛烈增长已不能满足需求,需要开展分布式存储的研究。
3:应用问题:随着数据量的爆炸增长,不断刺激着计算机技术的发展,如何利用大数据为人们生活所用,即时大数据的应用问题。大数据的应用在人类活动中涉及的范围越来越大,与我们已经密不可分。
数据转换
是按照预先设计好的规划将抽取的数据进行转化,在转化过程中,我们需要对数据进行清洗,整理和集成。即发现数据中的错误数据并进行相应的改正,将原来不同规则的数据整理集成为统一的规则。
1全量抽发现空值并处理:发现源数据中字段空值,按照一定的规则进行加载或者替换,比如可以用“0”或者按照该字段的平均的平均取值来替换
2:规范数据格式:将不同源的不同数据格式统一规范。
转化过程需要将这些不同的表示格式统一成为 唯一的规划格式
3:拆分数据:有时候需要一句业务需求对字段分解。
提升数据存储系统能力的三个方面
数据存储系统能力的提升主要有三个方面,1:提升系统的存储容量 2:提升系统的吞吐量 3:系统的容错性
存储容量:提升系统容量有两种方式:一种是提升单硬盘的容量,通过不断采用新的材质和新的读写技术,目前单个硬盘的容量已经进入TB时代。一种是在多硬盘的情况的下如何提升整体的存储容量;
吞吐量:对于单个硬盘,提升吞吐量的主要方法是提高硬盘转速,改进磁盘接口形式或增长读写缓存等。而要提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系
容错性:数据存储容量错是指当系统中的部件或节点由于硬件或软件故障,导致数据,文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到故障发生前的状态,使系统能够维持正常运行的技术。
提升系统的存储容量:
DAS直连式存储:直连式存储是最早出现的最直接的扩展数据存储模式,即将数据存储设备与数据使用设备直接相连的模式。DAS结构有扩展性差,成本高,资源利用率低,和备份,恢复和扩容过程复杂的不足之处。
NAS网络接入存储:NAS,网络接入顾名思义是通过网络与其他设备相连并提高具有文件访问那里的存储设备。由于构架的先天不足,也存在受局域网带宽的限制,不适应与数据块级访问方式和无法实现集中备份这些与大数据处理不相应的问题
SAN存储区域网络:SNA是提高格式统一的,大数据块访问能力的一种专用局域网络。它具有系统等整合度高,数据集中度高和高扩展的优良特征。因此:在一些大数据处理的复杂环境下,NAS与SAN常常作为互补的两种技术同时使用
云存储:云存储是指:通过网络技术,分布式文件系统,集群应用,服务器蓄奴话等技术将网络中海量的不同类型的存储设备构成可扩展,低成本,低能耗的共享存储资源池,并提供数据存储访问,处理功能的系统服务。
提升系统等吞吐量:
1) PPT每次专用处理器架构
每磁道专用处理器架构是由Slotnck在1970年提出的,这是最早的专用数据库机架构。20世纪70年代中期提出了具有使用价值的PPT架构,包括:CASSM、RAP、RARES。
2)每磁头专用处理器架构
每磁头专用处理器架构(PPH)是为了解决PPT架构的磁道容量限制缺陷为了解决PPT架构的磁道容量限制缺陷。,PPH架构面向的是采用移动技术的磁盘,每个磁头伴有一个专用处理器,因此可以在磁盘的一次旋转周期内读取完一个整柱面的数据。
3)多处理器缓存架构
多处理器缓存架构将原来直接相连的处理器与存储组件分离,采用一