大数据中心

大数据面临存储、安全等挑战,如数据量大导致管理成本增加、数据类型繁多增加有效性验证工作、低密度价值分布扩展安全防御边界、快速处理要求降低独立决策比例。解决方案包括分散存储、数据类型具体化、加强数据安全管理和边界防护。数据仓库作为大数据存储方式之一,提供面向主题、集成、随时间变化的数据集合,用于决策支持。
摘要由CSDN通过智能技术生成

1.1面临的挑战

   1系统问题:面对大数据的爆炸式增长,且具有大数据量,异构型,高时效性的需求时,数据的存储不仅仅有存储容量的压力,还给系统的存储性能,数据管理乃至大数据的应用方面带来了挑战。
   2:管理问题:这些大量的数据复杂,种类繁多,如何对分布,多态,异构的大数据进行管理的问题已经不期而至,传统的数据存储方式面对大数据的猛烈增长已不能满足需求,需要开展分布式存储的研究。
   3:应用问题:随着数据量的爆炸增长,不断刺激着计算机技术的发展,如何利用大数据为人们生活所用,即时大数据的应用问题。大数据的应用在人类活动中涉及的范围越来越大,与我们已经密不可分。

数据转换
是按照预先设计好的规划将抽取的数据进行转化,在转化过程中,我们需要对数据进行清洗,整理和集成。即发现数据中的错误数据并进行相应的改正,将原来不同规则的数据整理集成为统一的规则。
1全量抽发现空值并处理:发现源数据中字段空值,按照一定的规则进行加载或者替换,比如可以用“0”或者按照该字段的平均的平均取值来替换
2:规范数据格式:将不同源的不同数据格式统一规范。
转化过程需要将这些不同的表示格式统一成为 唯一的规划格式
3:拆分数据:有时候需要一句业务需求对字段分解。
提升数据存储系统能力的三个方面
数据存储系统能力的提升主要有三个方面,1:提升系统的存储容量 2:提升系统的吞吐量 3:系统的容错性
存储容量:提升系统容量有两种方式:一种是提升单硬盘的容量,通过不断采用新的材质和新的读写技术,目前单个硬盘的容量已经进入TB时代。一种是在多硬盘的情况的下如何提升整体的存储容量;
吞吐量:对于单个硬盘,提升吞吐量的主要方法是提高硬盘转速,改进磁盘接口形式或增长读写缓存等。而要提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系
容错性:数据存储容量错是指当系统中的部件或节点由于硬件或软件故障,导致数据,文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到故障发生前的状态,使系统能够维持正常运行的技术。
提升系统的存储容量:
DAS直连式存储:直连式存储是最早出现的最直接的扩展数据存储模式,即将数据存储设备与数据使用设备直接相连的模式。DAS结构有扩展性差,成本高,资源利用率低,和备份,恢复和扩容过程复杂的不足之处。
NAS网络接入存储:NAS,网络接入顾名思义是通过网络与其他设备相连并提高具有文件访问那里的存储设备。由于构架的先天不足,也存在受局域网带宽的限制,不适应与数据块级访问方式和无法实现集中备份这些与大数据处理不相应的问题
SAN存储区域网络:SNA是提高格式统一的,大数据块访问能力的一种专用局域网络。它具有系统等整合度高,数据集中度高和高扩展的优良特征。因此:在一些大数据处理的复杂环境下,NAS与SAN常常作为互补的两种技术同时使用
云存储:云存储是指:通过网络技术,分布式文件系统,集群应用,服务器蓄奴话等技术将网络中海量的不同类型的存储设备构成可扩展,低成本,低能耗的共享存储资源池,并提供数据存储访问,处理功能的系统服务。
提升系统等吞吐量:
1) PPT每次专用处理器架构
每磁道专用处理器架构是由Slotnck在1970年提出的,这是最早的专用数据库机架构。20世纪70年代中期提出了具有使用价值的PPT架构,包括:CASSM、RAP、RARES。
在这里插入图片描述
2)每磁头专用处理器架构
每磁头专用处理器架构(PPH)是为了解决PPT架构的磁道容量限制缺陷为了解决PPT架构的磁道容量限制缺陷。,PPH架构面向的是采用移动技术的磁盘,每个磁头伴有一个专用处理器,因此可以在磁盘的一次旋转周期内读取完一个整柱面的数据。在这里插入图片描述
3)多处理器缓存架构
多处理器缓存架构将原来直接相连的处理器与存储组件分离,采用一

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值