大数据系列——概论

1 何为大数据

在这里插入图片描述

在万物互联的时代,数据每时每刻都在产生。你的手机、笔记本、智能穿戴设备、智能家电等等所有联网的终端设备都在不间断的向云端输送着数据,云端数据呈指数级增长。在过去,受限于人类的计算能力,只能通过随机采样来进行数据分析,分析的结果取决于样本数据的质量。但是在云计算时代,可以依托云端强大的计算能力和新的处理技术与策略,对全量数据进行分析,挖掘其中的价值。
大数据的5V特点:

  • Volume(大量):TB级别以上的数据
  • Velocity(高速):要求高时效性,比如滴滴打车,需要知道车辆的实时位置
  • Variety(多样):文字、语音、图片、视频等
  • Value(低价值密度):在海量数据当中,每一个数据的价值是非常低的,所以需要对海量数据进行分析,挖掘其中有价值的数据
  • Veracity(真实性):比如要检测一批有质量问题的牛奶,如果是随机抽检,样本里的牛奶都是合格的,那就会误认为这批牛奶是正常的。如果对全部牛奶进行检测就会检测出有质量问题的牛奶。所以大数据可以最大限度保证真实性。在大数据时代,样本等于总体数据。

2 如何处理大数据

假设有一个码头,货轮每半天到一次,货轮的运力是500kg,这种情况只需要一个身强力壮的人就能完成搬货工作。如果有一天货轮每小时到一次,而且运力增加到了1吨,此时一个人还能持续的完成搬运工作么,显然是不行的。如果把一台服务器或一个虚拟机比作一个人,处理大数据就需要一个服务器集群,把大数据切分成多个数据片,分发到每台机器上去并行处理,处理完成之后再进行聚合,这是MapReduce的核心编程思想。
在这里插入图片描述
大数据计算分为两种:离线计算和实时计算。

3 离线计算

离线计算是处理已经存在、已经收集的数据。比如对数据库里的数据进行分析计算。
在这里插入图片描述

4 实时计算

实时计算是处理实时产生的数据,比如滴滴打车,在等车时想要知道车辆的实时位置。
在这里插入图片描述
通过canal或者Maxwell组件监听数据库的变化,实时同步数据到Spark Streaming上去处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值