大数据与云计算概论

第三章*

数据变化
数据变化可以分为数据概化与属性构造等方法进行属性的变换。
数据概化
用更抽象(更高层次)的属性来替代底层或原始数据。
属性构造
构造性的属性并添加到属性集合中以便帮助挖掘
数据集成
模式匹配的实质是就是实体识别问题,实体识别就是为了匹配不同的数据源的现实实体,通常元数据为依据进行实体识别,避免模式集成数显错误。每个属性的元数据包括属性名字,含义,数据类型,允许的取值范围,控值规则。元数据还可以用来帮助变换数据。
在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,需要注意匹配数据的结构以保障元模式数据的关系在集成后的模式仍然适用。
对于同一现实世界实体而言,在不同的系统中的统一属性的数值可能不同,可能的原因有:属性表是不同的方式,单位不同等等。
针对数据值冲突需要根据元数据提取概述性的规则,江源实时性转换为目标属性值。
数据归约
维归约是从原有的数据中删除不重要的或不相关的属性,或者通过对属性的进行的重组来减少属性的个数。维归约的目的是找到最小的属性子集,且该子集的概率分布尽可能的接近原数据集的概率分布,找到最小属性子集的方法有以下几种
1:逐步向前选择
从一隔空属性集开始,该结合作为属性子集的初始值,每次从原属性集中选择一个当前最优的属性子集中,迭代的选择最优为止。
2:逐步向后删除
从一个拥有所有属性的属性集开始,该集合是属性的初始值,每次从当前子集中选择一个当前最差的属性并将其属性子集中删除,迭代地最差并删除直至无法选出最差的。
3:向前选择与向后删除结合
可以将向前选择和向后删除的方法结合在一起,每一步选择一个最好的属性,并在剩余的部分中山出一个最差的属性。
使用分箱来近似数据分布,是一种流行的数据归约形式。属性A的直方图将A的数据分布划分为不相交的子集/桶。如果每个桶只代表单个属性值/频率对,则该桶称为单值桶。通常,桶表示给定属性的一个连续区间。
聚类技术把数据元组看作对象。它将对象划分为.群或簇,使得在一个簇中的对象相互"相似”,而.与其他簇中的对象“相异”。在数据归约中,用数据的簇代表替换实际数据。
抽样可以作为-种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。采用抽样进行数据归约的优点是:得到样本的花费正比例于样本集的大小,而不是数据集的大小。

第四章大数据的储存

面临的挑战
数据存储面临的三大挑战
|面对大数据的爆炸式增长,且具有大数据量、异构型、高时效性的需求时,数
系统|据的存储不仅仅有存储容量的压力,还给系统的存储性能、数据管理乃至大数问题|据的应用方面带来了挑
这些天量的数据结构复杂,种类繁多,如何对分布、多态、异构的大数据进行
管理管理的问题已经不期而至,传统的数据存储方式面对大数据的猛烈增长已不能
满足需求,需要开展分布式存储的研究。
随着数据量的爆炸式增长,不断刺激着计算机技术的发展,如何利用大数据为
应用人们生活所用,即是大数据的应用问题。大数据的应用在人类活动中所涉及的
范围越来越大,与我们已经密不可分。
大数据所存储的数据非常巨大,往往采用分布式的方式进行存储,而正是由于这种存储方式,存储的路径视图相对清晰,而数据量过大,导致数据保护,相对简单,黑客较为轻易利用相关漏洞,实施不法操作,造成安全问题。由于大数据环境下终端用户非常多,且受众类型较多,对客户身份的认证环节需要耗费大量处理能力。由于APT攻击具有很强的针对性,且攻击时间长,一旦攻击成功,大数据分析平台输出的最终数据均会被获取,容易造成的较大的信息安全隐患。大数据安全虽仍继承传统数据安全保密性、完整性和可用性三个特性,但也有其特殊性,主要表现在以下两方面:
一、大数据安全隐患

(一)大数据遭受异常流量攻击

大数据所存储的数据非常巨大,往往采用分布式的方式进行存储,而正是由于这种存储方式,存储的路径视图相对清晰,而数据量过大,导致数据保护,相对简单,黑客较为轻易.利用相关漏洞,实施不法操作,造成安全问题。由于大数据环境下终端用户非常多,且受众类型较多,对客户身份的认证环节需要耗费大量处理能力。由于APT攻击具有很强的针对性,且攻击时间长,一旦攻击成功,大数据分析平台输出的最终数据均会被获取,容易造成的较大的信息安全隐患。
(二)大数据信息泄露风险

大数据平台的信息泄露风险在对大数据进行数据采集和信息挖掘的时候,要注重用户隐私数据的安全问题,在不泄露用户隐私数据的前提下进行数据挖掘。需要考虑的是在分布计算的信息传输和数据交换时保证各个存储点内的用户隐私数据不被非法泄露和使用是当前大数据背景下信息安全的主要问题。同时,当前的大数据数据量并不是固定的,而是在应用过程中动态增加的,但是,传统的数据隐私保护技术大多是针对静态数据的,所以,如何有效地应对大数据动态数据属性和表现形式的数据隐私保护也是要注重的安全问题。最后,大数据的数据远比传统数据复杂,现有的敏感数据的隐,私保护是否能够满足大数据复杂的数据信息也是应该考虑的安全问题。
(三)大数据传输过程中的安全隐患
数据生命周期安全问题。伴随着大数据传输技术和应用的快速发展,在大数据传输生命周期的各个阶段、各个环节,越来越多的安全隐患逐渐暴露出来。比如,大数据传输环节,除了存在泄漏、篡改等风险外,还可能被数据流攻击者利用,数据在传播中可能出现逐步失真等。又如,大数据传输处理环节,除数据非授权使用和被破坏的风险外,由于大数据传输的异构、多源、关联等特点,即使多个数据集各自脱敏处理,数据集仍然存在因关联分析而造成个人信息泄漏的风险。
基础设施安全问题。作为大数据传输汇集的主要载体和基础设施,云计算为大数据传输提供了存储场所、访问通道、虚拟化的数据处理空间。因此,云平台中存储数据的安全问题也成为阻碍大数据传输发展的主要因素。安全、隐私保护技术不完善的条件下,互联网上的个人隐私泄露失去管控,微信、微博、QQ等.社交软件掌握着用户的社会关系,监控系统记录着人们的聊天、上网、出行记录,网_上支付、购物网站记录着人们的消费行为。但在大数据传输时代,人们面临的威胁不仅限于个人隐私泄露,还在于基于大数据传输对人的状态和行为的预测。近年来,国内多省社保系统个人信息泄露、12306账号信息泄露等大数据传输安全事件表明,大数据传输未被妥善处理会对用户隐私造成极大的侵害。因此,在大数据传输环境下,如何管理好数据,在保证数据使用效益的同时保护个人隐私,是大数据传输时代面临的巨大挑战之一。
(四)大数据的存储管理风险
大数据的数据类型和数据结构是传统数据不能比拟的,在大数据的存储平台上,数据量是非线性甚至是指数级的速度增长的,各种类型和各种结构的数据进行数据存储,势必会引发多种应用进程的并发且频繁无序的运行,极易造成数据存储错位和数据管理混乱,为大数据存储和后期的处理带来安全隐患。当前的数据存储管理系统,能否满足大数据背景下的海量数据的数据存储需求,还有待考验。不过,如果数据管理系统没有相应的安全机制升级,出现问题后则为时已晚。
二、大数据安全挑战
大数据安全虽仍继承传统数据安全保密性、完整性和可用性三个特性,但也有其特殊性,主要表现在以下两方面:
(一)个人隐私保护
以前数据是企业的资产,是在企业内部、局部的环境里使用,流动性不强,所以,数据的个人隐私表现不突出。但是到了互联网+时代,数据无处不在,各种数据积累起来后形成了多元数据关联,不法分子和别有用心的人可通过多元数据关联分析导致个人隐私信息泄露。怎样有效保护个人隐私是大数据安全面临的第-一个
(二)跨境数据流动
在现在这个时代,数据的流动很重要。全球性,购物促销活动多个国家都参与其中,数据的跨境流动是大数据的一-个特殊属性。在法律制度、数据服务外包、打击网络犯罪方面保护跨境数据的安全是很重要的。
所以,建立大数据安全标准体系框架时要对传统数据的采集、组织、存储、处理等生命周期各方面安全标准进行适用性分析,适合的接着采用,不适合的要修订,缺项的必须增加。
外部非授权人员对信息系统进行恶意入侵,非法访问隐私数据;数据具有易复制性,发生数据安全事件后,无法进行有效的追溯和审计;大数据有流动、共享的需求,大量数据的汇聚传输加大了数据泄露的风险。
(三)传统安全措施难以适配
大数据海量、多源、异构、动态的特征导致大数据系统存储结构复杂、开放性、分布式计算和高效精准的服务,这些特殊需求传统安全措施解决不了。
(四)平台安全机制亟待改进
以前我们用ORACLE数据库,到了大数据时代,大家基于hadoop体系结构。在hadoop体 系结构里,用户的身份鉴别和授权访问等安全保障能力比较薄弱。同时开源hadoop的一些组件在使用时没有测试,里面可能存在漏洞和恶意代码,存在人家开的后门。
在数据库时代应用访问控制通过数据库的访问机制解决。每一个用户都要注册,注册完才能访问到数据库。但是到了大数据时代,存在大量未知的用户和大量未知的数据,有很多的用户不知道他的身份,虽然他注册了也不知道他是谁,所以预先设置角色和预先设置角色的权限都做不到。
提升数据系统能力的三方面
储存容量
吞吐容量
容错性
提升系统的存储容量
DAS直连式储存直连式存储是最早出现的最直接的扩展数据存储模式,即将数据存储设备与数|据使用设备(服务器或工作站)直接相连的模式。DAS结构有扩 展性差,成本高、资源利用率低和备份、恢复和扩容过程复杂的不足之处。
NAS网络接入储存NAS,网络接入存储顾名思文是通过网络与其他设备相连并提供具有文件访问能力的存储设备。由于架构的先天不足,也存在受局域网带宽的限制、不适用数据块级访问方式和无法实现集中备份这些与大数据处理不相适应的问题。- SAN是指提供格式统= =的、数据块级访问能力的=种专用局域网络。它具有系统的整合度高、数据集中度高和高扩展性的优良特性。因此,在一些大数据处理的复杂环境下,NAS与SAN常 常作为互补的两种技术同时使用。
云存储是指:通过网络技术、分布式文件系统、集群应用、服务器虚拟化等技术将网络中海量的不同类型的存储设备构成可扩展、低成本、低能耗的共享存储资源池,并提供数据存储访问、处理功能的系统服务。
数据存储系统的容错性磁盘镜像和磁盘双工
磁盘镜像和磁盘双工是中小型网路系统中经常使用的容错技术。磁盘镜像是指将两个硬盘接在同一-个硬盘控制卡上,用同- -个硬盘控制卡来管理两个硬盘的数据读写,当系统向服务器写入数据时,该部分数据将同时写入两个硬盘。当出现一个硬盘损坏时,可以从另一个硬盘获得数据,确保系统正常运行。
基于RAID的磁盘容错冗余磁盘阵列
(Redundant Arraysof InexpensiveDisks,RAID)技术的基本原理是采用多块价格较便宜的磁盘,组成一一个容量巨大的磁盘阵列,配合数据分散存储设计,提升数据存储容错性。RAID技术分为多个等级,以数字编号。比较常.见的等级有RAIDO、RAID1、RAID3、
基于集群的数据容错
基于集群的数据容错是构建在多台存储节点上的容错技术。集群容错的基本思想是将同一份数据在集群中的不同节点中进行冗余存储,确保部分节点的故障不会导致系统整体的正常运行。其数据存储容错可以采用两种方式:双机互援模式和双机热备模式。
管理问题的三个管理技术
为了解决集群存储环境下的存储资源管理问题,采用存储资源映射方法通过在物理资源和虚拟存储资源请求之间建立合理的映射关系,来进行有效的存储资源管理。
存储资源管理方法
当用户数量增多,有限的存储资源已经不能满足用户对该类资源的需求时,用户与资源的矛盾就会凸显出来。解决这种矛盾的最有效的方法就是采取有效资源共享机制,将有限数量的资源按需求动态共享给多个用户使
支持多用户的用。 任何单体存储阵列所创建的物理卷的容量都是有限制的,而多个异构资源使用和存的存储系统联合在一起就可 以创建出一一个更 大的逻辑卷。
储环境隔离机制
大数据的各类描述方式的多样性,存在着结构化数据、半结构化数据和非结构化数据需要进行处理。
对于结构化数据,通常的处理方式仍是采用关系型数据知识库进行处理,
基于Hadoop对于半结构和非结构化的知识,Hadoop框架提供了很好的解决方案。的大数据存储机制
大数据的储存方式
分布系统:是解决大数据的存储问题,为大数据提的存储提供方式。
NOSQL数据库:适用于关系型数据库的数据的时候不适用的时候也没必要非使用关系型数据不可,可以考虑其他存储方式。
云储存:云存储是伴随着云计算技术的发展而衍生出来的- -种新兴的网络存储技术,它是云计算的重要组成部分,也是云计算的重要应用之一;它不仅是数据信息存储的新技术、新设备模型,也是一-种服务的创新模式。
分布式系统四种常见的数据分布方式
希方式分布
哈希方式是最常见的数据分布方式,其方法是按照数据的某一 特征计算哈希值,并将哈
希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。
按数据范围分布
按数据范围分布是另=个常 见的数据分布方式。将数据按特征值的值域范围划分为不同
的区间,使得集群中每台(组)服务器处理不同区间的数据。
按数据量分布
按数据量分布数据的方式与哈希方式和按数据范围分布有所区别的是按数据量分布数据1
与具体的数据特征无关,而是将数据视为一个顺序增长的文件。
一致性哈希的基本方式是使用一个哈希函数计算数据或数据特征的哈希值,使致性哈 希得哈希函数的输出值域为一-个封闭的环。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值