Spark基础及安装环境

本文介绍了Spark的基础概念、为何学习Spark、其特点以及与Hadoop的区别。Spark提供了一站式数据分析平台,包括SparkCore、SparkSQL、SparkStreaming、StructuredStreaming和SparkMllib等组件。文章还详细讲解了Spark的架构,如Master和Worker节点,以及多种部署模式,如local、Standalone、StandaloneHA和SparkOnYarn。
摘要由CSDN通过智能技术生成
Spark基础及安装环境

(1) 概念: Spark是一站式大数据分析平台, Spark的计算速度在官网对比逻辑回归模型和Hadoop的对比, 其中spark比hadoop快100倍, Hadoop3.X比spark快10倍(仁者见仁智者见智)

(2)为什么学习Spark? --> 对于Hadoop中的MapReduce计算仅仅支持一次计算模型, 但是对于图计算或者机器学习算法都需要迭代计算, 而且MapReduce又涉及多次写磁盘的操作(导致计算速度很慢). 而Spark可以使用关键数据抽象RDD实现分布迭代计算, 还引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.

(3) spark有一站式数据分析平台

​ SparkCore —> RDD

​ SparkSQL ----> DataFream, DataSet

​ SparkStreaming —> DStream离散化流, 进行批处理的流.

​ StructuredStreaming --> DataFream, DataSet , 实时的处理

​ SparkMllib ----> DataFream, DataSete, RDD

​ SparkGraphX —> RDPG (弹性分布式属性图)

(4)特点 : - Spark可以运行在任何地方.

​ -Spark运行速度快

​ -Spark有一站式数据分析平台

(5) Spark 和 Hadoop的区别和联系: Spark最初版本是改进了Hadoop的1.X 的MR的问题提出, Spark引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值