Spark简介

1、Spark简介

  • 诞生于加州大学伯克利分校AMP实验室,是一个基于内存的分布式计算框架

  • 发展历程
    2009年诞生于加州大学伯克利分校AMP实验室
    2010年正式开源
    2013年6月正式成为Apache孵化项目
    2014年2月成为Apache顶级项目
    2014年5月正式发布Spark 1.0版本
    2014年10月Spark打破MapReduce保持的排序记录
    2015年发布了1.3、1.4、1.5版本
    2016年发布了1.6、2.x版本

2、Spark特点

2.1 为什么使用spark

  • MapReduce编程模型的局限性

    1、繁杂,只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码

    2、处理效率低,Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据,任务调度与启动开销大

    3、不适合迭代处理、交互式处理和流式处理

  • Spark是类Hadoop MapReduce的通用并行框架

    1、Job中间输出结果可以保存在内存,不再需要读写HDFS

    2、比MapReduce平均快10倍以上

2.2 Spark优势

  • 速度快

    基于内存数据处理,比MR快100个数量级以上(逻辑回归算法测试)

    基于硬盘数据处理,比MR快10个数量级以上

  • <
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值