(一)初识Spark

1、什么是Spark

官网地址:http://spark.apache.org/

Apache Spark™是用于大规模数据处理的统一分析引擎。

从右侧最后一条新闻看,Spark也用于AI人工智能

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。
2、Spark优势在哪里

MapReduce

Google的三篇论文开启了大数据处理的篇章,其中MapReduce被各大公司作为数据处理的主要方案。MapReduce的思想也是从早期的函数式编程语言中借鉴而来,推广到了分布式系统中,接触的东西多了,发现原来很多知识都是相通的。(很多初入IT行业的新人,面对不断出现的新技术往往会比较迷茫,到底该学哪一个呢,其实找到一个自己感兴趣的方向,并努力探索下去,相信慢慢就会一通百通,当然我也是个新银,个人观点,仅供参考^ ^)

传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临两个问题:1、如果源数据非常大时,往往数据的移动就要花费较长时间。2、传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大的问题。

MapReduce是离线批量计算的代表,采用移动计算优于移动数据的理念,计算任务通常直接在HDFS的datanode上运行,这样避免了数据的移动(当然reduce阶段还是需要节点间传输数据),并且采用并行计算的方式,大大减少了数据处理时间。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值