文章目录
1、Spark简介
-
诞生于加州大学伯克利分校AMP实验室,是一个基于内存的分布式计算框架。
-
发展历程
2009年诞生于加州大学伯克利分校AMP实验室
2010年正式开源
2013年6月正式成为Apache孵化项目
2014年2月成为Apache顶级项目
2014年5月正式发布Spark 1.0版本
2014年10月Spark打破MapReduce保持的排序记录
2015年发布了1.3、1.4、1.5版本
2016年发布了1.6、2.x版本
2、Spark特点
2.1 为什么使用spark
-
MapReduce编程模型的局限性
1、繁杂,只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码
2、处理效率低,Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据,任务调度与启动开销大
3、不适合迭代处理、交互式处理和流式处理
-
Spark是类Hadoop MapReduce的通用并行框架
1、Job中间输出结果可以保存在内存,不再需要读写HDFS
2、比MapReduce平均快10倍以上
2.2 Spark优势
-
速度快
基于内存数据处理,比MR快100个数量级以上(逻辑回归算法测试)
基于硬盘数据处理,比MR快10个数量级以上
- <