Spark概述

最新推荐文章于 2023-03-29 20:12:43 发布

Jaden_JH

最新推荐文章于 2023-03-29 20:12:43 发布

阅读量277

点赞数

文章标签： spark hadoop big data

本文链接：https://blog.csdn.net/weixin_48626604/article/details/123541779

版权

Apache Spark是一个用于大数据处理的内存计算引擎，提供分布式内存抽象RDD，并支持多种编程语言。相较于Hadoop MapReduce，Spark速度更快，具有内存计算、DAG执行引擎和丰富的API等特点。Spark可以运行在Hadoop、Mesos、Standalone和Kubernetes等平台上，由Master、Worker、Driver和Executor等角色构成其架构。

摘要由CSDN通过智能技术生成

Spark概述

1.what is spark？

定义：
- Apache Spark 是用于大数据规模处理的统一分析引擎
- Spark的核心数据结构是以RDD一种分布式内存抽象，使得程序员能够在大规模数据集群中做内存计算，并且有一定的容错方式
- Spark借鉴了MapReduce思想发展而来的，保留了其分布式计算的优点并改进了其明显的缺陷，让数据存储在内存中提高了运行速度，并且提供了丰富的操作数据的API提高了开发速度
- Spark可以计算结构化、半结构化、非结构化、等各种类型的数据结构，同时也支持使用python、Java、Scala、R以及SQL语言去开发应用程序计算数据

在这里插入图片描述

Spark VS Hadoop（MapReduce）
- 区别
- 尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全代替Hadoop
  - 在计算层面，Spark相比较MapReduce有巨大的性能优势，但至今仍有许多计算工具基于MapReduce框架，比如Hive
  - Spark仅做计算，而H

最低0.47元/天解锁文章

Jaden_JH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark概述

Spark概述1.what is spark？定义：Apache Spark 是用于大数据规模处理的统一分析引擎Spark的核心数据结构是以RDD一种分布式内存抽象，使得程序员能够在大规模数据集群中做内存计算，并且有一定的容错方式Spark借鉴了MapReduce思想发展而来的，保留了其分布式计算的优点并改进了其明显的缺陷，让数据存储在内存中提高了运行速度，并且提供了丰富的操作数据的API提高了开发速度Spark可以计算结构化、半结构化、非结构化、等各种类型的数据结构，同时也支持使用pyt
复制链接

扫一扫