大数据概念详解

本文探讨了大数据的产生原因,包括计算存储技术的变革和数据产生主体的扩展。接着阐述了大数据的“4V”特征:高容量、高速度、多样性与低价值密度。大数据的影响在于推动全样研究、提升效率和关注相关性而非因果关系。最后,介绍了大数据技术支撑的四大方面:数据采集、存储与管理、处理与分析以及数据隐私与安全,其中分布式存储和处理是核心技术。
摘要由CSDN通过智能技术生成

科技是第一生产力。进入世纪的第一个20年以来,人们越来越多的将关注的领域集中在大数据、人工智能、云计算、物联网、移动互联网、GIS、AR与VR、5G、区块链、数字化与智慧化等,尤其为最近的风口“ABC”。笔者也一直在关注这方面的研究与学习,最近趁着有时间,将把一些科普性的概念写出来,以帮助关注该领域的人更好的理解这几个热点领域的知识,本次分享将介绍一下大数据的产生、概念、影响以及技术支撑。

对大数据时代的思考(一)

 

1、Why.为什么会产生大数据?

我们遇到一个概念或者一个问题的思路就是去问“为什么?”同样,提起到大数据,我们会想,之前为什么不是大数据时代(DT),为什么现在是?这里我分享几点我的看法。一个方面,产生大数据的一个基础是我们的计算存储技术发生了革命性的变化,从数据大小的单位来看,数据大小的单位可以分为Bit<Byte<KB<Mb<GB<TB<PB<EB<ZB<YB。

现在我们称为大数据,我相信单位至少是PB级别的,因为TB已经在我们的生活中很常见。存储技术的发展使得计算机的存储能力得到了飞速的进步,我们不会再像以前那样为了节省空间会清理掉部分的数据,而是基本上在那个地方放着。基于足够性价比、足够低成本的存储技术,这使得数据变得“大”有了最基本的支撑。另一个方面,数据产生的主体与范围发生了重要的变化,之前数据的产生只靠计算工作人员与运营人员的输入,而现在随着自媒体的发展,人人都是数据的生产者,数据的量呈指数增长,最近又随着物联网、感知监测设备、GIS等技术的发展,不仅人是数据产生的组成部分,其他非人物体、地面信息、空气检测信息都能作为数据产生源,并且无时无刻都在产生数据。总结来说,过去我们对数据做“减法”,现在我们不减,而且持续在做“加法”。

对大数据时代的思考(一)

 

2、what,大数据的概念及特征

大数据主要体现在一个“大”大字上面,谈及大数据,我们经常用“4V”来描述,第一,Volume,即容量大、体积大,正如前面所说,大数据的单位应该以PB起步,企业甚至可以到EB。第二个,Velocity,即高速,速率快,大数据产生的速度是很快的,有个知名的说法,即大数摩尔定律,据测算,现在每两年数据就会翻一倍,这个增长量是及其可怕的。第三个,Variety多样性,之前产生的数据多半是结构化的数据,比如多是数值型,而现在越来越多产生图片,音频,视频,网页等半结构化的数据,数据类型的多样性也是大数据的重要体现。第四个,Value,即有价值但又密度低,大数据的背后藏着丰富的商业价值,但是因为海量数据,真正有价值的数据却很难挖掘,数据的价值密度很低。

对大数据时代的思考(一)

 

3、大数据的影响

大数据的影响可以主要概括为,全样而非抽样,效率而非准确,相关而非推断。以前我们获得数据很难,我们会抽样作分析,现在随着大数据的支撑,我们做全样研究很简洁方便。基于之前的抽样研究,我们往往追求模型的准确性,而忽略了效率,大数据的时代,分秒必争,在这一秒,数据是有价值的,而到下一秒,数据就会失去价值,所以大数据时代,效率是王道。最后我们不会再关注特征与特征之间,或者说变量与变量之间的因果推断,而是发现他们相关即可,这在智能推送过程中显得尤为重要。

对大数据时代的思考(一)

 

4、大数据的技术支撑

大数据的技术支撑主要体现在四个方面,主要是数据采集,数据存储与管理、数据处理与分析、数据隐私与安全。其中最为核心的是存储与处理,两者都采用分布式原理,即分布式存储,主要有HDFS,NoSQL,NewSQL;分布式处理,即MapReduce。数据的存储利用分布式文件系统,云数据库,实现对结构化、半结构化和非结构化海量数据进行存储。而数据处理利用分布式并行编程模型,集合机器学习与数据挖掘算法,实现对海量数据的处理与分析,并对分析结构进行可视化呈现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值