Spark 和Hadoop(MapReduce)对比_hadoop mapreduce 与spark 算子相差巨大-CSDN博客

本文链接：https://blog.csdn.net/weixin_44870066/article/details/125749811

一、【Spark和MapReduce对比】

在这里插入图片描述
【总结】
尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop
1、在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive，hive的底层默认是MapReduce，但是可以经过与spark重新编译后，底层计算框架换成spark。
2、Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据
体系的核心架构。

【提问】
Hadoop的基于进程的计算和Spark基于线程方式优缺点？
解析：Hadoop中的MR中每个MapReduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中，造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率，Spark采用了线程的最小的执行单位，但缺点是线程之间会有资源竞争。

二、Spark的四大特点

1、【速度快】
由于Spark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍

Spark处理数据与MapReduce处理数据相比，有如下两个不同点：
(1)其一、Spark处理数据时，可以将中间处理结果数据存储到内存中；
(2) 其二、Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成.

2、【易于使用】
目前spark支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。为了
兼容Spark2.x企业级应用场景。

3、【支持多种运行范式】
Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes（Spark 2.3开始支持）上
在这里插入图片描述
对于数据源而言，Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。