spark的四种模式，spark比MapReduce快的原因

最新推荐文章于 2024-06-29 07:15:00 发布

道法—自然

最新推荐文章于 2024-06-29 07:15:00 发布

阅读量2.5k

点赞数

分类专栏： Spark学习

本文链接：https://blog.csdn.net/wyqwilliam/article/details/82429559

版权

Spark 是美国加州大学伯克利分校的 AMP 实验室（主要创始人 lester 和 Matei）开发的
通用的大数据处理框架。
 Apache Spark™ is a fast and general engine for large-scale data processing.
 Apache Spark is an open source cluster computing system that aims to make data analytics
fast,both fast to run and fast to wrtie
Spark 应用程序可以使用 R 语言、Java、Scala 和 Python 进行编写，极少使用 R 语言
编写 Spark 程序，Java 和 Scala 语言编写的 Spark 程序的执行效率是相同的，但 Java 语言写
的代码量多，Scala 简洁优雅，但可读性不如 Java，Python 语言编写的 Spark 程序的执行效
率不如 Java 和 Scala。
Spark 有 4 中运行模式：
1. local 模式，适用于测试
2. standalone，并非是单节点，而是使用 spark 自带的资源调度框架
3. yarn，最流行的方式，使用 yarn 集群调度资源
4. mesos，国外使用的多
Spark 比 MapReduce 快的原因
1. Spark 基于内存迭代，而 MapReduce 基于磁盘迭代
MapReduce 的设计：中间结果保存到文件，可以提高可靠性，减少内存占用，但是牺
牲了性能。
Spark 的设计：数据在内存中进行交换，要快一些，但是内

最低0.47元/天解锁文章

道法—自然

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
spark的四种模式，spark比MapReduce快的原因

Spark 是美国加州大学伯克利分校的 AMP 实验室（主要创始人 lester 和 Matei）开发的通用的大数据处理框架。 Apache Spark™ is a fast and general engine for large-scale data processing. Apache Spark is an open source cluster computing sys...
复制链接

扫一扫

专栏目录