大数据安全复习笔记——第一章绪论
大数据安全内涵
① 保障大数据安全,是指保障大数据计算过
程、数据形态、应用价值的处理技术;
② 大数据用于安全,利用大数据技术提升信
息系统安全效能和能力的方法,涉及如何
解决信息系统安全问题。
大数据安全威胁
① 大数据基础设施具有虚拟化和分布式特点,容易
受到非授权访问、信息泄露或丢失、破坏数据完
整性、拒绝服务攻击、网络病毒传播;
② 大数据应用的生命周期中,数据存储是一个关键
环节,尤其是非关系数据库带来如下安全挑战:
模式成熟度不够、系统成熟度不够、服务器软件
没有内置的足够的安全机制、数据冗余和分散性
问题。
③ 网络安全是大数据安全防护的重要内容,安全问
题随着网络节点数量的增加呈指数级上升;安全
数据规模巨大,安全事件难以发现;安全的整体
状况无法描述;安全态势难以感知,等等。
大数据安全威胁
④ 网络化社会使大数据易成为攻击目标:在网络化
社会中,信息的价值要超过基础设施的价值;大
数据蕴涵着人与人之间的关系和联系,使得黑客
成功攻击一次就能获得更多数据。
⑤ 大数据滥用的风险:一方面,大数据本身的安全
防护存在漏洞,安全控制力度不够。另一方面攻
击者利用大数据技术进行攻击,最大限度地收集
更多用户敏感信息。
⑥ 大数据误用风险:大数据的准确性和数据质量不
高,对其进行分析和使用可能产生无效的结果,
从而导致错误的决策。
传统数据安全的不足
传统数据安全往往是围绕数据生命周期加粗样式来部署,
即数据的产生、存储、使用和销毁。由于大数据
的规模没有上限,且许多数据的生命周期极为短
暂,因此,常规安全产品想要继续发挥作用,则
需要解决如何根据数据存储和处理的动态化、并
行化特征,动态跟踪数据边界,管理对数据的操
作行为等。
随着大数据应用越来越多,数据的拥有者和管理
者相分离,原来的数据生命周期逐渐转变成数据
的产生、传输、存储和使用。数据以外包形式存
储在云端。
保障大数据安全
- 围绕大数据生命周期,即数据的产生、采集、传输、
存储、处理、分析、发布、展示和应用、产生新数据等
阶段进行安全防护。 - 大数据保障技术可以从物理安全、系统安全、网络安全
、存储安全、访问安全、审计安全、运营安全等角度进
行考虑。 - 保障大数据安全的目标:最大程度地保护具有流动性和
开放性特征的大数据自身安全,防止数据泄露、越权访
问、数据篡改、数据丢失、密钥泄露、侵犯用户隐私等
问题的发生。 - 对大数据全生命周期阶段合并与精简,大数据应用过程
可划分为4个环节:采集、存储、挖掘和发布。
采集环节安全技术
- 安全威胁:
数据损坏、丢失、泄露、窃取。 - 安全机制:
① 身份认证
② 数据加密
③ 完整性保护
④ 抗重放攻击
⑤ 端到端的数据安全传输:采用SSL VPN(安全套
接层,虚拟专用网),有Web浏览器模式、客户
端模式、Lan到Lan模式。
存储环节安全技术
- 安全威胁:数据被窃取、丢失、破坏、机密数据
泄露、隐私数据泄露。 - 安全机制:
① 隐私保护:数据变换、匿名化。
② 数据加密:静态数据是指文档、报表、资料等不
参与计算的数据—先加密再存储;动态数据是指
需要检索或参与计算的数据—同态加密。
③ 备份与恢复:异地备份、RAID(独立磁盘冗余
阵)、数据镜像、快照(数据副本、复制品)
挖掘环节安全技术
- 数据挖掘是大数据应用的核心部分,是发掘大数据价值
的过程,即从海量的数据中自动抽取隐藏在数据中有用
信息的过程,有用信息可能包括规则、概念、规律和模
式等。 - 安全威胁:
第三方在进行数据挖掘的过程中植入恶意程
序、窃取系统数据。 - 安全机制:
① 身份认证:基于秘密信息、基于信物、基于生物特征
② 访问控制:自主访问控制DAC,可将拥有的权限自主地授予其他主体,并在随后的任何时刻将这些权限回收,控制是自主的;强制访问控制MAC—系统根据使用系统的机构事先确定的安全策略,对用户的访问权限进行强制性的控制,用户不能改变他们的安全级别或对象的安全属性;基于角色的访问控制RBAC—在用户和访问权限之间引入角色的概念,将用户和角色联系起来,通过对角色的授权来控制用户对系统资源的访问。
发布环节安全技术
- 发布是指大数据在经过挖据分析后,向数据应用实体输
出挖掘结果数据的环节,即数据“出门”环节,必须对即
将输出的数据进行全面的审查,确保输出的数据符合“不
泄密、无隐私、不超限、合规约”等要求。 - 安全威胁:泄密、泄露隐私、不合规范。
- 安全机制
① 安全审计:基于日志的、基于网络监听的、基于网关的
、基于代理的
② 数据溯源:就是对大数据应用周期的各个环节的操作进
行标记和定位,在发生数据安全问题时,可以及时准确
地定位到出现问题的环节和责任者,以便于对数据安全
问题的解决。溯源方法:标注法、反向查询法、数字水
印。
大数据用于安全
隐私及其保护
- 隐私是与个人相关的、具有不被他人搜集、保留和处
分的权利的信息资料集合,并且它能够按照所有者的
意愿在特定时间、以特定方式、在特定程度上被公开
。 - 隐私的基本属性:
保密性、个人相关、能够被所有者处分。 - 隐私分类
① 个人隐私:任何可以确定特定个人或与可确定的个人
相关,但个人不愿意暴露的信息,譬如:就诊记录。
② 共同隐私:不仅包含个人隐私,还包含所有个人共同
表现出但不愿意被暴露的信息,譬如:平均薪资。
信息隐私保护的客体分为以下四类
① 个人属性的隐私权: 譬如姓名、身份、肖像、声音等,
直接涉及个人领域的第一层次,是保护的首要对象。
② 个人资料的隐私权:譬如消费习惯、病历、犯罪前科等
记录,若其涉及的客体为一个人,则这种资料含有高度
的个人特性而常能辨识该个人的本体,即“间接”的个人
属性,也应以隐私权加以保护。
③ **通信内容的隐私权:**通信内容包含个人的思想与情感,
原本存于内心,别人不可能知道,因而应以隐私权保护
,以保护个人人格的完整发展。
④ **匿名的隐私权:**匿名权利的适度许可,可以鼓励个人的
参与感,并保护其自由创造力空间,真知直谏推动社会
的整体进步。
隐私保护面临的威胁
① 数据搜集:Internet服务提供商在搜集、下载、集中、整
理和利用用户个人隐私资料极为方便。
② 信息服务:个性化需求的信息服务需要用户提供更多的
个人信息,才能提供更好的用户体验。
③ 搜索引擎:无法对自己搜索到的网页数据库信息进行监
督,不会对搜索到的内容信息负责。
④ 数据挖掘:从大量的、不完全的、有噪声的、模糊的、
随机的实际应用数据中,提取隐含在其中的、人们事先
不知道的、但又是潜在有用的信息和知识的过程。
隐私保护面临大数据的威胁
① 大数据时代带来信息存储和管理的集中化,一个大规模
生产、分享和应用数据的时代,一切皆可量化,通过社
交网络将社会关系和活动数据化,实现了过去不可想象
的情绪数据化。
② 大数据通常包含了大量的用户身份信息、属性信息、行
为信息,在大数据应用的各阶段内,如果不能保护好大
数据,极易造成用户隐私泄露。
③ 大数据的多源性,使得来自各个渠道的数据可以用来进
行交叉检验,有可能发现匿名化数据后面的真实用户,
因而导致隐私泄露。大数据时代,人们无法避免失去隐
私。
④ 数据存储过程:大数据环境下,用户无法知道数据确切
的存放位置,用户对其个人数据的采集、存储、使用、
分享无法有效控制。
⑤ 数据传输过程:大数据环境下,数据传输将更为开放和
多元化,传统物理区域隔离的方法无法有效保证远距离
传输的安全性,电磁泄漏和窃听将成为更加突出的安全
威胁。
⑥ 数据处理过程:大数据环境下,部署大量的虚拟技术,
资源动态共享增加了访问控制和身份认证的管理难度,
基础设施的脆弱性和加密措施的失效可能产生新的安全
风险。
数据安全原则 CIA
- Confidentiality
防止泄露未经授权的信息用户 - Integrity
防止不当修改 - Availability
将数据提供给合法的用户
数据隐私保护措施
- 访问控制
- 加密算法
- 推断控制
防止个人从可获得的信息中推断信息(不可访问)