**
2.1 大数据技术的产生
(1)大数据的基本概念**
维基百科对大数据的解释:
大数据(BigData),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的、大或复杂的数据集。大数据也可以定义为来百各种来源的大量非结构化和结构化数据。大数据通常包含的数据量超出了传统软件在人们可接受的时间内进行处理的能力。
智库百科对大数据的解释:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括了大规模并行处理( MPP Massively Parallel Processing)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网,及可扩展的存储系统。
百度百科对大数据的解释:
大数据指无法在一定 时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产简而言之,大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集、存储、搜索、共享、传输、分析和可视化等。
(2)大数据产生的原因
大数据的产生:
随着计算机技术全面融入社会生活的方方面面,信息爆炸已经积累到了-一个开始引发技
术创新和商业变革的阶段。
21世纪是数据信息大发展的时代,互联网(社交网络、搜索、电子商务)、视频网站、移动互联网(微博、推特)、物联网、车联网、GPS、医学影像、安全监共南金融(银行、股市、保险)、电信(通话、短信) .等众多领域都在疯狂产生着大量的
数据,这些数据不仅使世界充斥着比以往更多的信息,而且由这些数据产生出了“大数据”这
个如今尽人皆知的概念。
大数据技术的产生首先源于互联网企业对于日益增长的网络数据分析的需求,如图2-1
所示。20世纪80年代的典型代表是Yahoo的“分类目录”搜索数据库: 20 世纪90年代的典
型代表是Google, 它开始运用算法分析用户搜索信息,以满足用户的实际需求; 21 世纪的典
型代表是Facebook,它不仅满足用户的实际需求,而且创造新的需求,因为此时Web 2.0 的
出现使人们从信息的被动接收者变成了主动创造者。2010 年之后,YouTube、 Twitter、 微博等社交网站出现,海量的视频、图片、文本、短消息通过这些社交平台产生,基于互联网的数据的增长速度变得与IT界的摩尔定律(该定律揭示了信息技术进步的速度)很类似。
基于上述状况,2006 年,广大个人用户的数据量迈进了“TB”时代(个人计算机的硬盘
容量从GB提升到了TB规格),全球- -共新产生了约180EB的数据;在2010年,全球的数据
量达到ZB级,2011年,这个数字达到了1.8ZB。 DC预计,到2020年,整个世界的数据总量将会达到35.2ZB (1ZB=10亿TB)!其中,各数据量单位KB> MB> GB> TB> PB> EB>ZB> YB>NB> DB依次递增。注:单位以PB衡量的数据就可称之为大数据。
大数据的可用性及衍生价值:
进入IT时代以来,全人类积累了海量的数据,这些数据仍在不断急速增加,这带来两个
方面的巨变:-方面, 在过去没有海量数据积累的时代无法实现的应用现在终于可以实现;另
一方面, 从数据匮乏时代到数据泛滥时代的转变,给数据的处理和应用带来新的挑战与困扰,即如何从海量的数据中高效地获取数据,有效地深加工并最终得到有价值意义的数据。
大数据的一-个重要方面是数据的可用性。用以分析的数据越全面,分析的结果就越接近
于真实,就更具可用性。
数据可用性主要包含高质量数据获取与整合的方法,大数据可用性理论体系的建立,弱可用数据的近似计算与数据挖掘,数据-致性的描述问题,一致性错误的自 动检测问题,实体完整性的自动修复问题,自动检测实体同一 -性错误的问题,半结构化、非结构化数据的实体识别问题等方面。
大数据的另一个重要方面是数据的复杂性。目前,85%的数据属于社交网络、物联网、电
子商务等产生的非结构化和半结构化数据。非结构化数据是数据结构不规则或不完整、没有预定义的数据模型、不方便用二维逻辑数据库来表现的数据。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等。半结构化数据是介于完全结构化数据( 如关系型数据库、面向对象数据库中的数据)和完全无结构的数据之间的数据,XML、HTML文档属于半结构化数据,它- -般是自描述的,数据的结构和内容混在一起, 没有明显的区分。大数据的结构日趋复杂,而这些数据早已远远超越了传统方法和理论所能处理的范畴。有时甚至大数据中的小数据,如一条微博可能就会产生颠覆性的效果。因此,针对这种类型的新数据结构及大数据要为人们所用,就需要新的技术及方法对当前的大数据进行采集、清洗、分析和处理,从大数据中发现有用的知识。
大数据本身很难直接使用,只有通过处理的大数据才能真正地成为有用的数据。虽然有
以上两个问题,但随着大数据的不断增长,可以清楚地发现,通过采用新的方法和新的技术,这些大数据是可用的,并且具备巨大价值。
大数据可以在众多领域创造巨大的衍生价值,使得未来IT投资重点不再是以建系统为核
心,而是以大数据为核心,处理大数据的效率逐渐成为企业的生命力,大数据的价值潜力指数政府,房地产业,医疗保健业,金融保险业,公用事业单位,咨询服务
业这几个行业的数据量是各行业中数据量拥有量较大的行业,尤其是政府和房地产业,它们拥.有的数据量非常庞大。政府,教育服务业,文化娱乐业的大数据价值的潜力相对-般,大数据开发难度较低;餐饮业,房地产业,咨询服务业,零售业等行业,它们的大数据价值潜力中等,并且大数据开发难度中等;医疗保健业,自然资源, IT信息产业,金融保险业,公用事业单位这些行业的大数据价值潜力越大,开发难度也比较高。
(3)大数据概念的提出
由于海量非结构化、半结构化数据的出现,数据已没有办法在可容忍的时间内,使用常规软件方法完成存储、管理和处理任务。怎样处理这样的数据成为一-个重要课题。
2008年《Nature》杂志推出了“大数据”专辑,引发了学术界和产业界的关注。数据成为
科学研究的对象和工具,业界开始基于数据来思考、设计和实施科学研究。数据不再仅仅
是科学研究的结果,而且变成科学研究的基础。尽管2009年“大数据”才开始成为互联网行业中的热门词汇,但早在1980年,著名的未来学家托夫勒在其所著的《第三次浪潮》中就热情地将大数据称颂为“第三次浪潮的华彩乐章”。对大数据进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公(McKinsey),麦肯锡公司也是最早应用大数据的企业之一。麦肯锡公司看到了各种网络平台记录的个人海量信息具备的潜在商业价值,于是投入大量人力物力进行调研, 在2011年6月发布了关于大数据的报告,该报告对大数据的社会影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,之后大数据逐渐受到了各行各业关注。
回顾计算机技术的发展历程,可以清晰地看到计算机技术从面向计算逐步转变到面向数
据的过程,面向数据也可以更准确地称为“面向数据的计算”。面向数据要求系统的设计和架构以围绕数据为核心开展。这一过程的描述如图2 3所示,该图从硬件、网络和云计算的演进过程等方面以时间为顺序进行了纵向和横向的对比。在计算机技术的早期,由于硬件设备体积庞大,价格昂贵,这一阶段数据的产生还是“个别”人的工作,即数据生产者主要是科学家或军事部门,他们更关注计算机的计算能力,计算能力的高低决定了研究能力和-一个国家军事能力的高低。此时推动计算技术发展的主要动力是硬件的发展,这个时期是硬件的高速发展时期,硬件从电子管迅速发展到大规模集成电路。1969年ARPANET (阿帕网,由美国国防部高级研究计划署开发,是全球互联网的始祖)的出现改变了整个计算机技术的发展历史,互联网逐步成为推动技术发展的一个重要力量,特别是高速移动通信网络技术的发展和成熟使现在数据的生产成为全球人类的共同活动,任何人可以随时随地产生和交换数据。
以网络为核心的数据构成变得非常复杂,数据来源多样化,不同数据之间存在大量的隐
含关联性,这时计算所面对的数据变得非常复杂,各类社交应用将数据和复杂的人类社会运行相关联,由于人人都是数据的生产者,人们之间的社会关系和结构就被隐含到了所产生的数据之中。
2.2大数据的v4特征
大数据从结构化数据向半结构化数据和非结构化数据演进,为了确保数据可用性,就要分
析大数据的数据特点。数据量大、数据产生速度快、数据类型复杂、价值密度低4个特点就是大数据的显著特征,或者说,只有具备这些特点的数据才是大数据。
1)规模性(Volume): 大数据需要采集、处理、传输的数据量大;处理PB级的数据是
比较常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。
2)多样性(Variety): 大数据的种类多、复杂性高;大数据有不同格式,有结构化的关系型
数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且非结构化数据。这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
3)高速性(Velocity): 大数据需要频繁地采集、处理并输出;因为数据会存在时效性,需要快速处理并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,数据必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。
4)价值密度低(Value); 大数据不经过相应的处理则价值较低。挖掘大数据的价值类似
于沙里淘金。以视频为例,-个-小时的监控视频数据, 可能有用的数据只有一两秒。如何通过强大的算法更迅速地完成数据的价值“提纯”是目前大数据技术研究的重要课题。