Spark的介绍、特点、核心术语、运行过程及安装

最新推荐文章于 2025-02-21 12:10:23 发布

奋斗的源

最新推荐文章于 2025-02-21 12:10:23 发布

阅读量2.9k

点赞数

分类专栏： Apache基础知识文章标签： spark python

本文链接：https://blog.csdn.net/yuanfate/article/details/120740522

版权

文章目录

一.Spark介绍
二.Spark特点
三.Spark核心术语
四.Spark运行流程
五.Spark安装

一.Spark介绍

Spark 是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，其用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API，以及支持用于数据分析的通用计算图的优化引擎。它还支持丰富的高级工具集，包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Pandas API on Spark、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流。

二.Spark特点

1.运行速度迅速：Spark基于内存进行计算（当然也有部分计算基于磁盘，比如shuffle），内存计算下，Spark 比 Hadoop 快100倍。。
2.容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序、topn等复杂操作时，更加便捷。
3.超强的通用性：Spark提供了Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX等技术组件，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
4.集成Hadoop：Spark并不是要成为一个大数据领域的“独裁者”，一个人霸占大数据领域所有的“地盘”，而是与Hadoop进