Spark基础及安装环境

最新推荐文章于 2024-09-13 10:52:36 发布

她的微笑如此倾城

最新推荐文章于 2024-09-13 10:52:36 发布

阅读量391

点赞数

文章标签：大数据 spark

本文链接：https://blog.csdn.net/weixin_43952215/article/details/108865784

版权

本文介绍了Spark的基础概念、为何学习Spark、其特点以及与Hadoop的区别。Spark提供了一站式数据分析平台，包括SparkCore、SparkSQL、SparkStreaming、StructuredStreaming和SparkMllib等组件。文章还详细讲解了Spark的架构，如Master和Worker节点，以及多种部署模式，如local、Standalone、StandaloneHA和SparkOnYarn。

摘要由CSDN通过智能技术生成

Spark基础及安装环境

(1) 概念: Spark是一站式大数据分析平台, Spark的计算速度在官网对比逻辑回归模型和Hadoop的对比, 其中spark比hadoop快100倍, Hadoop3.X比spark快10倍(仁者见仁智者见智)

(2)为什么学习Spark? --> 对于Hadoop中的MapReduce计算仅仅支持一次计算模型, 但是对于图计算或者机器学习算法都需要迭代计算, 而且MapReduce又涉及多次写磁盘的操作(导致计算速度很慢). 而Spark可以使用关键数据抽象RDD实现分布迭代计算, 还引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.

(3) spark有一站式数据分析平台

SparkCore —> RDD

SparkSQL ----> DataFream, DataSet

SparkStreaming —> DStream离散化流, 进行批处理的流.

StructuredStreaming --> DataFream, DataSet , 实时的处理

SparkMllib ----> DataFream, DataSete, RDD

SparkGraphX —> RDPG (弹性分布式属性图)

(4)特点 : - Spark可以运行在任何地方.

-Spark运行速度快

-Spark有一站式数据分析平台

(5) Spark 和 Hadoop的区别和联系: Spark最初版本是改进了Hadoop的1.X 的MR的问题提出, Spark引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.