Spark概述
1.what is spark?
-
定义:
- Apache Spark 是用于大数据规模处理的统一分析引擎
- Spark的核心数据结构是以RDD一种分布式内存抽象,使得程序员能够在大规模数据集群中做内存计算,并且有一定的容错方式
- Spark借鉴了MapReduce思想发展而来的,保留了其分布式计算的优点并改进了其明显的缺陷,让数据存储在内存中提高了运行速度,并且提供了丰富的操作数据的API提高了开发速度
- Spark可以计算结构化、半结构化、非结构化、等各种类型的数据结构,同时也支持使用python、Java、Scala、R以及SQL语言去开发应用程序计算数据
-
Spark VS Hadoop(MapReduce)
-
区别
-
尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全代替Hadoop
- 在计算层面,Spark相比较MapReduce有巨大的性能优势,但至今仍有许多计算工具基于MapReduce框架,比如Hive
- Spark仅做计算,而H
-