大数据、快速数据和数据湖概念

作者:
娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰
国立核研究大学MEPhI(莫斯科工程物理研究所)

摘要
今天,我们见证了大数据的另外两个概念的出现:数据湖和快速数据。它们只是旧大数据IT的新营销标签,还是真正的新标签?因此,本文的主要目标是确定这三个概念之间的关系。

关键词:大数据,快速数据,数据湖

1介绍
在过去的几十年里,用于更好的决策和更有效的运营的企业数据正在急剧增长。几乎所有现代企业都获得了大量关于其IT基础架构(ITI)当前状态的数据。这些数据需要及时正确地处理,以识别对业务需求有用的信息。这些数据大部分是非结构化的。根据国际数据中心的研究“机遇的数字世界:丰富的数据和物联网日益增长的价值”,2020年非结构化数据的数量预计约为44 ZB(国际数据中心,2014年)。在许多其他大数据应用领域中,有两个领域是大数据和现实洞察相结合的:1)在其他信息技术(特别是搜索技术、识别隐藏模式的深度数据分析)的实施中提供大数据信息技术作为服务(准备好的功能模块),信息搜索的主要来源和超大文档阵列中主要内容(语义)的检索,而无需人类直接阅读,等等。;以及2)分析处理关于ITI状态的数据,以识别系统功能、IS事件和入侵防御等方面的异常。
所有这些数据不应被视为独立数据元素的组合。必须维护每个文件执行和修改、注册表修改、网络连接、在您的环境中执行的二进制文件等的记录关系。而且,它是一个具有以下独特特征的数据流:巨大或可能无限的容量、动态变化、以固定顺序流入和流出、要求快速(通常是实时)响应时间等。数据流的典型例子包括各种时序数据和在动态ITI环境下产生的数据,如网络流量、电信、视频监控、网站点击流、传感器网络等。
大数据领域的标准术语目前还没有开发出来。首先我们有数据。现在我们见证了另外两个概念的出现:数据湖和快速数据。是
300 由2016年BICA科学计划委员会负责遴选和同行审查
作者。由爱思唯尔出版社出版。
doi:10.1016/j . procs . 2016 . 07 . 439
大数据、快速数据和数据湖概念 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰
它们只是旧大数据IT的新营销标签,还是真正的新标签?因此,本文的主要目标是确定这三个概念之间的关系。其组织如下。第2-4节相应地描述了三个概念,即大数据、数据湖和快速数据。论文最后总结了它们之间的相互关系和未来的研究方向。
2大数据概念
以下是对大数据概念的解释。也就是说,数据集的大小和结构超出了传统编程工具(数据库、软件等)的能力。用于在合理的时间内收集、存储和处理数据,更不用说超过人类的感知能力。数据可以是结构化的、半结构化的和非结构化的,这使得不可能以传统的方式有效地管理和处理它们(Miloslavskaya,2014)。确定大数据IT和传统IT区别的标准是三个“V”:量——非常大的数据量;速度–非常高的数据传输速率;多样性——弱结构化数据,主要理解为数据结构不规则和难以从流中提取同质数据并识别一些相关性。后来又增加了四个“V”——准确性、可变性、价值和可见性。
大数据处理有三种类型(霍恩贝克,2013年):
1)伪实时或软实时批处理,其中已经存储在非易失性存储器中的数据被处理(仅存储的数据被处理),数据转换过程的概率和时间特性主要由应用问题的要求决定。该模型提供了性能优势,因为它可以使用更多的数据,例如,对预测模型进行更好的训练;
2)硬实时中的流处理,其中收集的数据在没有存储到非易失性介质的情况下被处理(仅存储处理操作结果),并且数据转换过程的概率和时间特性主要由传入数据速率决定,因为在处理节点处队列的出现导致不可逆的数据丢失。该模型适用于低响应时间至关重要的领域;
3)使用混合模型(也称为Lambda Architecture (Marz,2013))的混合处理,具有三个架构原则:健壮性(系统必须能够管理硬件、软件和人为错误);数据不变性(原始数据被永久存储,并且永远不会被修改)和重新计算(结果总是可以通过(重新)计算存储的原始数据来获得)并由四层架构实现:批处理层(包含存储在分布式文件系统上的不可变的、不断增长的主数据集,并根据该原始数据计算批处理视图);服务层(加载并公开数据存储中的批处理视图以供进一步查询)、速度层(仅处理新数据并补偿服务层的高延迟更新并计算实时视图)和组合层(用于同步、结果合成和其他重要问题)。
大数据信息技术从根本上不同于传统信息技术,因此它们变得以数据为中心或数据驱动。如果对于传统信息技术来说,是一种处理设备或介质(计算机、集群、云),用于处理各种请求(订单等)。,被放在数据处理过程的中心,大数据IT主要被认为是连续流动的物质,其处理机制必须建立在流本身中。其中用于处理的输入数据的下游速率和结果传送速率不应低于流速率,否则这将导致无限增长的原始数据的无限增长或排队或无用存储。
大数据信息技术的理论基础是计算的一个部分,被称为数据科学,包括以下内容(Rajaraman,2011):开发分布式文件系统和转换数据集的方法,以创建并行和分布式处理超大规模数据的过程
301

大数据、快速数据和数据湖概念 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰
金额;相似性搜索,包括关键的最小化技术和位置敏感散列法;数据流处理和必须立即处理的快速到达数据的专门算法;搜索引擎技术,用于大规模数据集和搜索结果排名、垃圾链接检测以及中心和权威方法;频繁项集数据挖掘,包括关联规则、市场篮、先验算法及其改进;非常大的高维数据集聚类算法;网络应用问题:管理广告和推荐系统;分析和挖掘超大型图(如社交网络)结构的算法;通过降维获得大数据集重要属性的技术,包括奇异值分解和潜在语义索引;可以应用于非常大规模数据的机器学习算法,如感知器、支持向量机和梯度下降。
我们来公式化一下大数据的一些重要特征:要准确:数据需要正确,从可靠(可信)的来源获取;及时:数据必须是最新的,反映最新的ITI状态,如有必要,应适时添加历史数据;要全面:数据需要收集到一个模型中,这个模型描绘了一幅完整的画面,是灵活集成的,容易提炼出有用的信息;量身定制:数据应针对特定的业务目的进行定制;相关:数据必须适用于使用它的组织,并且是该组织的实际数据。
一般来说,大数据处理针对的是数据挖掘,指的是从大量数据中提取或挖掘(发现)知识。数据挖掘集成了来自多个学科的各种技术,如数据库和数据仓库、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间或时间数据分析。
3数据湖概念
几年前(2010年),数据湖或数据中心的新概念已经出现。这个术语本身是由詹姆斯·迪克森(Dixon,2010)引入的,但有时它被贬低为仅仅是支持Hadoop的产品的营销标签。或者我们还知道另一个愿景:昨天的统一存储就是今天的企业数据湖(McClure,2016)。
数据湖是指一个大规模可扩展的存储库,它以其原始格式(原样)保存大量原始数据,直到需要时,再加上可以在不损害数据结构的情况下摄取数据的处理系统(引擎)(Laskowski,2016)。数据湖通常是为处理大量快速到达的非结构化数据(与数据仓库的高度结构化数据形成对比)而构建的,从中可以得出进一步的见解。因此,湖泊使用动态(而不是像数据仓库那样预先构建静态)分析应用程序。湖中的数据一创建就变得可访问(再次与为缓慢变化的数据设计的数据仓库形成对比)。
数据湖通常包括一个语义数据库,这是一个概念模型,利用与创建互联网超链接相同的标准和技术,并在数据上添加一层上下文,定义数据的含义及其与其他数据的相互关系。数据湖策略可以结合SQL和NoSQL数据库方法以及在线分析处理(OLAP)和在线事务处理(OLTP)功能。
与具有文件或文件夹数据存储的分层数据仓库相反,数据湖使用平面架构,其中每个数据元素都有唯一的标识符和一组扩展的元数据标签。数据湖不需要严格的模式,也不需要对所有形状和大小的数据进行操作,但是它需要保持数据到达的顺序。可以想象成一个大的数据池,将所有积累的历史数据和新数据(结构化、非结构化和半结构化加上来自传感器、设备等的二进制数据)近乎实时地带入一个地方,在这个地方,直到查询到数据(使用读取时模式)才定义模式和数据需求。
302

大数据、快速数据和数据湖概念 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰
如果需要,数据湖可以分为三个独立的层:一个用于原始数据,第二个用于增强的日常数据集,另一个用于第三方信息。另一种可能的方法是根据数据湖的寿命将数据湖分成三个分区:小于6个月的数据;较旧但仍处于活动状态的数据和归档数据不再使用,但需要保留(这些陈旧数据可以移动到速度较慢、成本较低的介质上)。
因此,数据湖是对数据进行初步分析的一个具有成本效益的地方,而灵活的、面向任务的数据结构只在必要的地方实施(Stein,2014年)。数据湖流出是分析的数据,它构成了扩展分析生态系统的关键组成部分。
数据湖应该与企业的其他ITI集成在一起。这需要数据的初始编目和索引以及数据安全性。数据湖中的数据应该支持几个非常重要的特征:
1)随数据增长的高可用性横向扩展体系结构;
2)治理和强制执行保留、处置和识别待处理数据的策略;
3)对现有数据(和元数据)清单进行集中编目和索引,包括来源、版本、准确性和准确性;
4)数据基数意味着它与其他数据的关系;
5)数据转换谱系(跟踪)指的是用它做了什么,它来自何时何地(对内部、外部和获得的第三方数据源的评估),谁和为什么改变了它,存在什么版本,它有多长时间是有用的或相关的,等等。;
6)所有应用程序都可以访问一个易于管理和完全共享的数据存储(而不是为新文件、移动、云工作流和数据副本创建孤岛);
7)共享访问模型,以便每一位数据都能以多种格式同时访问,从而消除提取、转换和加载过程,并允许数据就地分析、加速不同应用程序之间的工作流支持等。;
8)从任何设备(平板电脑、智能手机、笔记本电脑、台式机)访问以支持移动工作人员;
9)使用多种分析方法和数据工作流以及基于非常具体的用例的单一主题分析,对数据湖进行敏捷分析;
10)一定级别的服务质量,在系统内的各自区域安全隔离整合的工作流,以确保安全或性能;
11)效率包括擦除编码、压缩、重复数据消除;
12)当处理进行到数据时,您永远不会移动数据,而不是相反,等等。
进入湖泊的数据包含日志和传感器数据(例如。来自物联网),低级别客户行为(例如,。网站点击流)、社交媒体、文档集合(例如,。电子邮件和客户文件)、地理位置轨迹、图像、视频和音频以及对集成分析有用的其他数据。数据湖治理包括应用程序框架,用于通过编目和索引以及进一步的高级元数据管理来捕获和上下文化数据。它有助于协作创建这些数据的模型(视图),然后获得更多的可见性并管理元数据的增量改进。高级元数据管理结合了快速变化的数据结构,以及对高度结构化数据的亚秒级查询响应。对于数据湖本身来说,因为它是一个单一的原始数据存储,所以确保其操作可用性、完整性、访问控制、身份验证和授权、监控和审计、业务连续性和灾难恢复非常重要。
4快速数据概念
在当前的动态世界中,企业数据增长过快。随着来自物联网和现代的传感器、执行器和机器对机器通信的数据流
303

大数据、快速数据和数据湖概念 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰
网络非常大,企业识别哪些数据是时间敏感的,应该立即采取行动变得至关重要,反之亦然,在有理由挖掘之前,哪些数据可以存放在数据库或数据湖中(Shalom,2014)。快速数据对应于将大数据分析应用于接近实时或实时的较小数据集,以解决特定问题。它们在要求低延迟并依赖高输入/输出能力来快速更新的应用程序中发挥着重要作用。快速数据分析的目标是快速收集和挖掘结构化和非结构化数据,以便采取行动。快速数据通常以流的形式进入数据系统,并且更强调以速度处理大数据流,新的闪存驱动器已经准备好打破当前的速度限制,而当前的速度限制主要受硬盘设备的性能限制。闪存设备之上的内存数据库和数据网格的结合将允许流处理能力的增加。因此,快速数据需要两种技术:一种是能够以最快速度传递事件的流式系统,另一种是能够以最快速度处理每个项目的数据存储。在此基础上,快速数据处理可以描述为摄取(每秒获取数百万个事件)、决定(对每个事件做出数据驱动的决定)和实时分析
(实现自动化决策并提供事件操作趋势的可见性)。
一些快速数据应用程序依赖于快速批处理数据,而另一些则需要实时流。快速数据的潜在使用案例包括,例如,智能监控摄像头可以连续记录事件,并使用预测分析来识别和标记发生的安全异常,或者智能电网应用程序可以分析数万个地点的实时电力使用情况,并自动启动减载,以平衡特定地理区域的供需。
因此,我们可以得出结论,快速数据是管理大量飞行数据的大数据补充方法。与快速数据交互从根本上不同于与静态大数据交互,需要不同架构的系统。
5结论
让我们重复讨论的概念所使用的主要思想。大数据可以是结构化的、半结构化的和非结构化的,其特点是容量、速度、多样性、准确性、可变性、价值和可见性。大数据处理有三种类型:伪实时或软实时批处理、硬实时流和混合。数据湖以其原始格式(结构化、非结构化和半结构化)保存大量原始数据,这些原始数据是根据可重用性的要求来考虑的,直到需要这些数据以及能够在不损害数据结构的情况下摄取数据的处理系统(引擎)。可以想象成一个大的数据池,将所有积累的历史数据和新数据近乎实时地带入一个地方,在这个地方,直到查询到数据,才定义模式和数据需求。数据湖得到了良好的管理和保护,具有高可用性的横向扩展体系结构、集中式编目和索引、来自任何允许的现代设备的共享访问模型、使用敏捷分析和高级数据谱系(跟踪)。快速数据是对时间敏感的结构化和非结构化“飞行中”数据,应立即收集和处理(需要低延迟和快速处理大数据流)。它对应于将大数据分析应用于接近实时或实时的较小数据集,以解决特定问题。快速数据需要一个能够以最快速度传递事件的流系统,以及一个能够以最快速度处理每个项目的数据存储。一些快速数据应用程序依赖于快速批处理数据,而另一些则需要实时流。
因此,我们可以得出结论,不是所有的大数据都快,也不是所有的快数据都大。因此,这两个概念有交集。在分析大数据和数据湖时,结论是第二个概念进化延续了螺旋上升的第一个概念。这三个概念相互关系的最终图像如图1所示.可能的进一步研究领域是支持这些概念的架构的详细比较。
304

大数据、快速数据和数据湖概念 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰

图1:大数据、快速数据和数据湖概念之间的相互关系
6确认
这项工作得到了联邦高等教育自治教育机构国立研究核大学MEPhI(莫斯科工程物理研究所)竞争力增长计划的支持。
参考
j .迪克森。(2015). Pentaho、Hadoop和数据湖。网址:https://jamesdixon.wordpress.com/ 2010/10/14/pentaho-Hadoop-and-data-lakes/(访问日期:2016年5月28日)。
北卡罗来纳州沙洛姆。(2014). 大数据的下一件大事:快速数据。网址:http://venturebeat . com/2014/06/25/下一个大数据中断/(访问日期:2016年5月28日)。
皇家霍恩贝克(2013年)。批处理与流:区分战术和战略大数据分析。网址:http://data tactics . blogspot . ru/2013/02/batch-vs-streamingdifferentiating . html(访问日期:2016年5月28日)。
北卡罗来纳州拉斯科夫斯基。(2016). 数据湖治理:一个大数据是生是死。网址:http://searchcio。techtarget . com/feature/Data-lake-governance-A-big-Data-do-or-die(访问日期:2016年5月28日)。
Marz。j .沃伦。(2013). 大数据:可扩展实时数据系统的原则和最佳实践。曼宁出版公司。
t .麦克卢尔。(2016). 昨天的统一存储就是今天的企业数据湖。网址:http://search storage . tech target . com/opinion/Yesterdays-unified-storage-is-todays-enterprise-data-lake(访问日期:2016年5月28日)。
北米洛斯拉夫斯卡娅。参议员,м。托尔斯泰,а,萨帕奇科夫,s。(2014). 信息安全
大安全相关数据的维护问题。2014年国际会议论文集
未来物联网和云虚拟世界2014。巴塞罗那(西班牙)。过去分词(past participle的缩写)。361-366.
拉贾拉曼,a。莱斯科维奇,。乌尔曼,法学博士(2011年)。“海量数据集的挖掘”。剑桥
大学出版社。326页。
斯坦,b。莫里森,a。(2014). 企业数据湖:更好的集成和更深入的分析。普华永道。网址:http://www . PwC . com/us/en/technology-forecast/2014/cloud computing/assets/pdf/PwC-technology-forecast-data-lakes . pdf(查阅日期:2016年5月28日)。
国际数据中心的研究(2014年)。机遇的数字宇宙:丰富的数据和物联网日益增长的价值。网址:http://www . EMC . com/leadership/digital-universe/2014 iview/index . htm(访问日期:2016年5月28日)。

305

原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值