[长文科普]浅谈数据湖的应用与安全

[长文科普]浅谈数据湖的应用与安全
00后 ATLAS Academy 今天

一. 什么是数据湖

  1. 数据湖的定义

数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据,具有改造和分析数据处理能力。来自不同来源的详细原始的数据被加载到一个综合信息库,可以看到提供给用户分析的任何数据。主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。
在这里插入图片描述
图例1: 数据湖是如何工作的-“Understanding the datalake-EMC”[1]

在大数据时代,所有数据都具有潜在价值。数据湖无需预先定义数据结构,可以用原始形式存储,且应用程序和用户能够根据需要获取和展现数据。基于数据湖做分析,可以不用做任何ETL、数据搬迁等前置过程,对数据的提取和加载可实现最小化转换,跨各种异构数据源进行大数据关联分析,从而极大的节省成本和提升用户体验。[2]

  1. 数据湖和数据仓库的区别

数据湖和数据仓库都是数据存储库。数据湖以其本机格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据。在需要数据之前,没有定义数据结构和需求。

数据湖和数据仓库的区别,主要就是数据仓库的数据进入这个池之前是预先分类的,这可以指导其后面如何进行数据的分析。但在大数据时代,这些都是素材而已,你根本不知道以后如何用它。也就是数据湖给后面的数据分析带来了更大的弹性。因此,这个放大数据的仓库,专家建议叫数据湖,以区别于数据仓库。KDNuggets.com在一篇文章中作出以下对比[3]:

数据:数据仓库只存储建模后或结构化的数据;而数据湖对数据没有要求,结构化、半结构化和非结构化的数据均会储存。

处理:在将数据载入至数据仓库之前,我们首先要建模,这种模式被称为写模式(schema-on-write);而将数据载入至数据湖之前,可以直接将原始数据载入,等到需要使用数据时在进行结构化、建模,这种模式叫做读模式(schema-on-read)。

存储: Hadoop这种大数据技术的一大特点就是比数据仓库的存储成本低。原因有二:1. Hadoop是开源软件,所以不需要购买许可证,还可以获得免费的社区支持;2. Hadoop被设计为可以安装在低成本的大众硬件上。

敏捷性:数据仓库是一个高度结构化的仓储,尽管改变其结构从技术上并不难实现,但由于其与业务紧密相关,改变结构需要花费大量时间。而数据湖并不存在这个问题,开发者和数据专家可以轻松地任意配置其模型、查询方式和应用。

安全:数据仓库技术已经存在了数十年,而数据湖的技术支撑——大数据技术仍算是个新事物。因此,数据仓库的安全能力往往要比数据湖更为成熟。不过,目前业界已有大量人力物力投入其中,所以数据湖安全水平的提高只是时间问题。

用户:一直以来,数据仓库的口号都是“让人人都可以做商业情报和分析”,人们在建好数据仓库后,也会邀请大量用户来使用,但效果并不理想,只有20-25%的人会真的使用。那数据湖能解决这个问题吗?目前看来很难。根据当前数据湖的成熟度,仍然只能算是数据专家们的专属工具。

通过以上对比我们了解到了数据湖和数据仓库的区别,它们有各自的目标,您可以根据自身需要实现的业务选择最合适的一种数据存储库。

  1. 数据湖的关键功能

组织构建数据湖和分析平台时,需要考虑许多关键功能,包括:
在这里插入图片描述
图例2:数据湖的关键功能[4]

i. 数据移动

数据湖允许导入任何数量的实时获得的数据。可以从多个来源收集数据,并以其原始形式将其移入到数据湖中。此过程允许扩展到任何规模的数据,同时节省定义数据结构和转换的时间。

ii. 安全地存储和编目数据

数据湖允许您安全地存储关系数据(例如,来自业务线应用程序的运营数据库和数据)和非关系数据(例如,来自移动应用程序、IoT 设备和社交媒体的运营数据库和数据)。它们还使用户能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。

iii. 分析

数据湖允许组织中的各种角色(如数据科学家、数据开发人员和业务分析师)通过各自选择的分析工具和框架来访问数据。数据湖允许用户运行分析,而无需将数据移至单独的分析系统。

iv. 机器学习

数据湖将允许用户从多种角度进行分析,包括通过历史数据和机器学习来构建模型以预测可能的最优结论以实现最佳效果。

总结:

数据湖是包含下面两个特征的信息系统:

  1. 可以保存大数据的集中式存储库

  2. 能够在数据不移动的情况下进行计算的系统

二. 数据湖成功实施的关键因素

  1. 与现有IT成果无缝集成

可连接到应用程序生成的任何数据或由物联网(IoT)设备获取的数据, 通过优化的虚拟化技术来处理关系型数据源上的所有数据。例:可与Power BI一起在大规模数据集上进行交互式分析。

  1. 可存储和分析PB级文件和数万亿个对象

无约束、一站式地分析所有数据,可存储数万亿个文件,其中单个文件的大小可能大于PB级,比其他云存储大200倍。消除与云上的大数据量相关的时间和空间复杂性。

  1. 实现数据安全与合规

监管应用于数据湖中的数据,确保数据位于更好的位置,以满足日益严格的法规与合规要求。

  1. 赋能数据用户

支持组织中的所有数据使用者通过自助形式访问业务的可信数据,做出由数据推动的智慧决策。

  1. 管理不断增长的数据和成本

随着数据的增长,可以轻松扩展和采集数据湖中的数据,无论其类型和结构如何。告别传统存储,节省成本。

  1. 提高敏捷性,加快实现价值的速度

加速自信的决策。赋能数据用户,以自助方式访问数据,运行试探性分析,从而实现更出色的成果。

  1. 更快地准备和转换数据

通过将结构化和非结构化数据迁移至数据湖,可以节省用于数据准备和转换的时间和资源。赋能 IT 团队,使他们能够将精力集中于创新活动。

总的来说,数据湖概念解决了信息孤岛的问题,用户可以将不同来源不同结构的数据都集中到一个数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。[5][6][7]

三. 数据湖的技术安全

  1. 身份验证和管理

    简化的身份生命周期管理: 只删除或禁用目录中的帐户,就可迅速创建并快速吊销用户或服务(服务主体标识)的标识

    多重身份验证: 多重身份验证为用户登录和交易提供了额外的安全层

    通过标准开放协议(如 OAuth 或 OpenID)对任何客户端进行认证

    可将企业目录服务和云身份提供商(cloud identity providers)联合

  2. 平台访问和权限

    向帐户管理提供的基于角色的访问控制:数据湖旨在通过允许用户访问其中的集中内容来打破数据孤岛所创造的障碍。但是某些数据需要文档级访问限制:用户只能看到被授予读取权限的文档来保证数据的安全性 。

    用于访问存储区中数据的 POSIX ACL: 以的形式管理文件和文件夹权限。控制读取 ®、写入 (w),对所有者角色、所有者组和其他用户及组执行 (x) 资源的权限。

  3. 数据保护

    数据湖会在其整个生命周期中保护用户的数据:对静态数据(存储级别)和传输数据同时进行加密保护,然后再将其存储在持久性介质上。

  4. 网络隔离

    数据湖有助于控制对网络级别的数据存储的访问: 可以为受信任客户端建立防火墙,定义 IP 地址范围。使用 IP 地址范围时,只有拥有定义范围内的 IP 地址的客户端才能连接。云中的虚拟专用网络以及防火墙和其他机制使用户能够在基于云的解决方案上实施网络隔离。[8][9]

关于Hadoop安全请戳:浅谈Hadoop安全(上)浅谈Hadoop安全(下)

四. 数据湖的具体应用

  1. 利用数据湖实现金融服务

i. 确保数据完整性

因金融服务组织处理越来越多的个人信息和敏感数据,安全性,保密性和完整性是金融服务公司做出实时决策至关重要的要求, 数据湖提供几乎100%的支持。

ii. 遵守法规和合规性

金融服务公司面临严格且迅速发展的法规变更, 数据湖有助于满足严格且不断修正的要求。

iii. 规划数据波动性和可扩展性

对于金融服务组织,全球或区域事件可能会影响交易量以及活动和数据水平。无论是影响全球市场的社交媒体信息,联邦汇率变化还是新法规,数据湖都能确保能够提供弹性,根据需要调整基础架构的大小,消除浪费并减少未充分利用的资源。数据湖的敏捷性使能快速响应以满足用户需求,同时优化成本。

iv. 降低欺诈和威胁的风险

由于金融服务公司通常要处理大量个人和交易数据,因此面临更高的欺诈和网络攻击风险。数据湖可以在保持安全环境的同时进行扩展和创新,使用基于云的解决方案保护数据。[10]

  1. 利用数据湖实现内部审计服务

i. 汇聚多源数据流

数据湖是存储混合数据格式和以数字方式存储遗留数据以便于检索的理想选择。数据湖作为一个敏捷平台,用于摄取多个数据流,以便在内审中大量使用分析。

ii. 提高审计效率

因为数据湖是集中式存储库,内部审计可以通过使用数据湖中的数据获得显着的效率,无需多种数据资源。

iii. 协助审计跟踪

数据湖帮助内审人员访问原始的非结构化数据,以执行系统验证并确保审计跟踪。

iv. 提高内审安全性

企业级用户数据面临严峻的安全挑战,数据湖正在不断发展并增加新功能,以改进访问控制和数据安全功能,最大程度提高内审安全性。[12]

参考文献:

  1. https://40uu5c99f3a2ja7s7miveqgqu-wpengine.netdna-ssl.com/wp-content/uploads/2017/02/Understanding-data-lakes-EMC.pdf

  2. “Columbia University School of Professional Study, APAN PS5400: Managing Data, Shekhar Pradhan”https://www.slideshare.net/jamserra/big-data-architectures-and-the-data-lake

  3. https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

  4. https://amazonaws-china.com/big-data/datalakes-and-analytics/what-is-a-data-lake/?nc1=h_ls

  5. https://azure.microsoft.com/en-us/services/data-lake-analytics/

  6. https://www.ibm.com/cn-zh/analytics/use-cases/governing-data-lake

  7. http://siliconangle.tv/gartner-drowns-the-concept-of-data-lakes-in-new-report/

  8. https://www.searchtechnologies.com/blog/data-lake-security

  9. https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-security-overview

  10. https://amazonaws-china.com/cn/financial-services/featured-partner-solutions-data-lake-and-analytics-solutions-for-financial-services/?nc1=h_ls

  11. https://developer.ibm.com/articles/ba-data-becomes-knowledge-2/

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值