Spark基础及安装环境
(1) 概念: Spark是一站式大数据分析平台, Spark的计算速度在官网对比逻辑回归模型和Hadoop的对比, 其中spark比hadoop快100倍, Hadoop3.X比spark快10倍(仁者见仁智者见智)
(2)为什么学习Spark? --> 对于Hadoop中的MapReduce计算仅仅支持一次计算模型, 但是对于图计算或者机器学习算法都需要迭代计算, 而且MapReduce又涉及多次写磁盘的操作(导致计算速度很慢). 而Spark可以使用关键数据抽象RDD实现分布迭代计算, 还引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.
(3) spark有一站式数据分析平台
SparkCore —> RDD
SparkSQL ----> DataFream, DataSet
SparkStreaming —> DStream离散化流, 进行批处理的流.
StructuredStreaming --> DataFream, DataSet , 实时的处理
SparkMllib ----> DataFream, DataSete, RDD
SparkGraphX —> RDPG (弹性分布式属性图)
(4)特点 : - Spark可以运行在任何地方.
-Spark运行速度快
-Spark有一站式数据分析平台
(5) Spark 和 Hadoop的区别和联系: Spark最初版本是改进了Hadoop的1.X 的MR的问题提出, Spark引入了Master和worker的结构自己管理计算问题==(存储还需要HDFS, 资源调度还需要YARN)==.