大数据的机会与风险

原文:大数据的机会与风险

以下内容来自英文版《大数据分析前沿》报告,大数据分析委员会撰写,由厦门大学计算机科学系教师林子雨作为志愿者无偿翻译,仅供学术交流,严禁用于商业用途。

《大数据分析前沿》——前言:大数据的机会与风险

翻译:厦门大学计算机科学系教师林子雨(http://www.cs.xmu.edu.cn/linziyu)  翻译完成时间:2014年9月10日

在许多科学和商业领域中的实验、观察、数字模拟,当前都产生了TB级别的数据,在某些情形下,甚至超过PB级别的数据。对包含在这些数据集中的信息进行分析,已经带来了某些领域的重大突破,包括基因学、航天、高能物理等,并带动了新的基于信息的产业的发展。传统的分析方法主要基于的假设是,分析人员可以利用他们自己计算环境中的数据开展工作,但是,大数据的出现,给这种假设带来了严峻的挑战,尤其是在许多情形下数据是分布在不同的位置。

在产生和使用大规模数据集方面,虽然科学群体和国防企业在长期内都处于领导地位,但是,电子商务和大规模搜索引擎的出现,使得其他行业也要开始面对大数据的挑战。例如,Google、Yahoo!、Microsoft和其他互联网公司,都已经拥有EB级别(10的18次方字节)的数据。社区网络(比如Facebook、Youtube、Twitter)数据的爆炸式增长,已经超出了我们的想象,这些公司都拥有上亿用户。基于这些大规模数据集的数据挖掘,正在改变着我们对危机响应、市场营销、娱乐、计算机安全等问题的思考方式,也同时改变着我们对信息存储和检索的思考方式。文档、图像、网络和视频的集合,人们已经不仅仅认为他们只是简单的字节,而是潜在的知识和发现的源头,需要高级的分析技术,这些技术已经远远超出经典的索引和关键词统计等技术,旨在发现隐藏在数据底下的关系和语义信息。

在数据管理和数据分析领域的许多挑战,都需要新的方法来支持大数据时代。这些挑战涉及数据生成、分析准备工作、共享使用策略等内容:

(1)           处理高度分布的数据源

(2)           从数据生成到数据准备,全程跟踪数据源头

(3)           数据有效性验证

(4)           处理采样偏差和异构性

(5)           使用不同格式和结构的数据

(6)           开发能够充分利用并行和分布式结构的算法

(7)           保证数据一致性

(8)           保证数据安全性

(9)           支持数据发现和集成

(10)       支持数据共享

(11)       开发对大数据可视化方法

(12)       开发可扩展的、增量的算法

(13)       处理实时分析和决策支持的需求

 

我们希望大数据可以被高效地利用,科学研究可以不断延伸它的领域,技术可以变得更加具有自适应性、个性化和鲁棒性。例如,我们可以幻想一下,有一个健康医疗系统,它存储了每个公民的各种信息,包括基因数据和环境数据等,某个个体的数据可以和来自其他个体的数据以及基础生物、医学研究的数据进行整合,从而为每个个体提供最优的诊疗方案。我们还可以把个体的兴趣偏好、需求层次,与商品、技能和服务的细粒度描述等信息进行整合,从而产生新的市场。

对这种未来场景抱有乐观态度是很正常的。数据库和搜素引擎领域的几十年的发展,在可扩展的、以数据为中心的技术方面,已经产生了大量相关经验知识。尤其是,这些领域已经催生了云计算和其他并行、分布式平台,它们非常适合于大数据分析。而且,在机器学习、数据挖掘、统计、算法理论等领域的创新性研究,已经诞生了一些可以用来处理不断增加的数据的数据分析方法。但是,在抱有乐观心态的同时,也必须泼一盆冷水,我们必须意识到实现上述这些幻想场景可能遇到的大的困难。这些困难中,有一部分是来自大规模数据库的实现——发现和消除瓶颈、编程接口的简单性和通用性、传播元数据、设计一个可以很好兼容硬件错误的系统、开发并行和分布式硬件,所有这些都需要面临一个前所未有的数据规模。但是,大数据的挑战远不止存储、索引、查询(这些都是经典的数据库系统中的内容),而是要实现一个更加宏大的目标——推理。推理,是把数据变成知识,其中,知识通常会以实体的方式来表示,这些实体事先在数据中并不存在,但是,存在于以这些数据为基础的分析模型中。需要严谨的统计学知识来验证这种从数据到知识的推理,把统计学知识运用到这种大规模数据上,会面临很多难题。忽略这一点,就可能使得产生的结果没有什么用处。在任何关于大数据和推理的讨论中,必须清醒地认识到,我们很有可能把数据变成看起来很像知识的知识,但是,实际上并不是知识。而且,我们可能很难意识到这个问题发生了。

实际上,许多问题都取决于推理的质量。一个主要的问题是采样偏差。我们可能会根据某种标准来选择样本数据,但是,推理和决策这二者可能采用不同的采样标准。这个问题在某些大规模数据集中看起来会尤其严重,这些大规模数据集通常会包含很多数据子集,每个数据子集都是根据不同的数据采样标准得到的。另一个问题就是数据溯源。许多系统都包含了推理层,其中的数据并非原始数据,而是基于原始数据的推理结果。当原始的数据存在丢失的内容时,这种情况经常发生。在一个包含相互关联的推理的大系统中,很难避免形成回路,它会带来额外的偏差,并且放大了噪音。最后,当考虑了许多假设时,还有一个大的问题,那就是要控制误差。实际上,对于大规模数据集而言,不仅会在数据量方面会不断增加(也即是数据库行不断增加),在数据描述属性方面也会不断增加(也就是数据库列不断增加)。而且,我们经常对采用多个列组合进行预测的能力比较感兴趣,这可能导致需要考虑的假设的数量产生指数级别的增长,这对于误差会带来严重后果。也就是说,我们可能很难找到一条针对大规模数据的“大数据定律”,和统计波动相关的风险,实际上会随着数据集的增加而不断增大。

虽然,统计学领域已经开发了相关的工具,理论上可以解决这些问题,但是,在大规模数据环境下适用这些工具还是要注意,因为:(1)所有统计工具都是建立在数据集的特征、采样方式的一些假设基础之上的,在处理大规模数据集时,这些假设可能会被违反;(2)评估过程误差的工具以及诊断工具,本身就涉及计算过程,当数据集扩展到一定规模时,这些计算过程本身就会变得不可行。

尽管存在上述忧虑,大数据分析委员会仍然认为,基于大数据的推理所面临的许多挑战还是可以被解决的。这些挑战的解决,必须借助于大量持续的、建立在推理和计算理论基础之上的研究工作。这些研究工作必须开发出包含了推理理论的可扩展的计算框架,而且这些推理理论本身就必须已经考虑了可扩展性。研究工作必须考虑实时决策周期,并能有效权衡速度和准确性。在研究过程中,需要新的工具把人们融入到数据分析的各个阶段,因为,我们必须意识到,知识通常是主观的,依赖于具体内容,在某些方面,人类的智能是无法被机器完全取代的。

本报告的研究成果解决了以下方面的问题:

(1)评估“面向大规模数据挖掘和数据流的数据分析”这个领域的现状;

(2)明确当前实践和理论二者之间存在的鸿沟;

(3)提出填补这个鸿沟的研究计划。

因此,本报告梳理了大规模数据分析方面的前沿研究,主要的研究领域包括:

(1)数据表示:包括原始数据的特征化表示和转换,很多转换都是用来减少数据表示的复杂性。

(2)计算复杂性问题,以及针对该问题的理解是如何支持计算资源的特征化表示。

(3)在大规模数据环境下的统计模型的构建,包括数据清洗和验证。

(4)采样,既作为数据采集过程的一部分,也作为数据压缩的主要方法。

(5)把人类融入到数据分析过程中的方法,包括众包(它把人类作为训练数据的一部分提供给学习算法)和可视化(不仅帮助人类理解分析结果,而且把人类的输入提供给模型修正过程)。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值