Spark 介绍(基于内存计算的大数据并行计算框架)
Hadoop与Spark
行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案。这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。Spark由Apache Software Foundation引入,用于加速Hadoop计算软件过程。
对于一个普遍的信念, Spark不是Hadoop的修改版本,并不是真的依赖于Hadoop,因为它有自己的集群管理。 Hadoop只是实现Spark的方法之一。
Spark以两种方式使用Hadoop - 一个是 存储,另一个是 处理。由于Spark具有自己的集群管理计算,因此它仅使用Hadoop进行存储。