一、什么是大数据
\quad \quad 什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB来衡量。(从数据大小的单位来看,数据大小的单位可以分为Bit<Byte<KB<Mb<GB<TB<PB<EB<ZB<YB。)
1Byte = 8 Bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes
1 TB = 1,024 GB = 1,048,576 MB = 1,073,741,824 KB = 1,099,511,627,776 Bytes
1 PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes
1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes
1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes
1 YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
二、大数据特征
\quad \quad 大数据主要具有以下四个方面的典型特征,即海量(Volume)、多样(Varity)、高速(Velocity)和价值(Value),即所谓的“4V”。
- 海量性(volume): 大数据的数据量很大,每天我们的行为都会产生大批量数据。
- 多样性(variety): 大数据的类型多种多样,结构化数据,非结构数据
- 高速性(velocity): 大数据要求处理速度快
- 价值性(value): 大数据产生的价值密度低,意思是指大部分数据没有参考意义,少数数据会形成高价值,比如私家汽车安装的摄像头,大部分情况是用不到的,但是一旦碰到碰瓷情况等现象就会很有价值。
三、大数据技术框架
\quad \quad 在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是大数据技术。
\quad \quad 大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示。
四、大数据计算模式
\quad \quad
常见的大数据计算模式有四类,下图所示
- 批处理计算:批处理计算又称为离线计算,是针对大规模历史数据的批量计算,如MapReduce
- 流计算: 流计算是针对流数据的实时计算,可以实时处理产生的数据。商业版的有IBM(InfoSphere Streams 和IBM StreamBase,开源的有Storm和S4(Simple Scalable Streaming System),还有一部分是企业根据自身需求制作的。
- 图计算: 图计算是针对大规模图结构数据的处理,常用于社交网络,如Pregel、GraphX、Giraph(FaceBook)、PowerGraph和Hama等。
- 查询分析计算: 查询分析计算是针对大规模数据的存储管理和查询分析,如Hive、Cassandra和Impala等。
五、大数据在各个行业中的应用
\quad \quad 大数据的本质是发现数据规律,实现商业价值。在生活中有很多大数据应用的场景,包括金融、经济、医疗和体育行业等。比如:
-
电商推荐系统:基于海量的浏览行为,购物行为数据,进行大量的模型的运算,得出各种推荐结论,一共电商网站页面来为用户进行商品推荐,(猜你喜欢)
-
精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的进准的广告投放。