若泽大数据B站视频 - Spark学习大纲（重复）

最新推荐文章于 2023-07-26 21:37:34 发布

zhikanjiani

最新推荐文章于 2023-07-26 21:37:34 发布

阅读量306

点赞数

本文链接：https://blog.csdn.net/zhikanjiani/article/details/90024968

版权

Spark大纲：
1. Spark入门
 2. Spark Core
3. Spark SQL
4. Spark Streaming
5. Why Spark

Spark入门:

1、Spark是什么、有哪些特点
2、Spark Timeline、发展历史、各个版本总结
3、Spark VS Hadoop2.X & MapReduce
4、Spark源码下载、编译（几种编译方式以及Hadoop版本指定）
5、Spark安装部署准备（JDK、SCALA）
6、spark-shell交互式命令行工具的使用
编程实现词频统计WordCount与MapReduce编程作比较。

SPARK CORE:

1、RDD（Resilent Distributed Dataset）
2、Spark Standalone安装部署
3、Spark Core进阶（1）、Spark Shuffle深入剖析
（2）、Spark Core核心源码剖析
4、Spark Core案例
5、其它：Spark On YARN
Spark HistoryServer
6、Spark优化

SPARK SQL:

https://blog.csdn.net/zhikanjiani/article/details/95059959
https://blog.csdn.net/zhikanjiani/article/details/95337745

SPARK STREAMING：

Spark Streaming入门
Spark Streaming核心编程
Spark Streaming高级应用
Structure Streaming

Spark VS MapReduce：

为什么选择spark作为对于大数据进行数据分析和数据挖掘的基本计算框架？
1、快速性
Apache spark拥有先进的DAG调度器、查询优化器以及物理执行引擎从而高性能的实现批处理和流数据处理。
2、易用性
可以使用Java、scala、python、R以及SQL快速的写spark应用，spark提供80个以上高级算子便于执行并行应用，并且可以使用scala、python、R以及SQL的Shell端交互式运行spark应用。通过spark的python的dataframe的API读取json文件
Df = spark.read.json(“logs.json”)
Df.where(“age > 21”).show()
3、通用性
Spark拥有一系列库，包括SQL和DataFrame，用于机器学习和MLib，支持图形计算GraphX以及流计算模块Streaming。可以在一个应用中同时组合这些库。

还支持多种模式运行（Hadoop、Apache mesos、Kubernete、standalone或者在云上，也可以获取各种数据源上的数据
Spark可以直接运行以自身的standalone集群模式运行，也可以在亚马逊EC2上运行，不过企业级用的比较多的是Hadoop yarn模式，当然也有Mesos和Kubernetes模式。可以获取不限于来自于HDFS、Apache Cassandra、Apache Hbase和Apache Hive等上百种数据源。

单词总结Spark
Fast speed、easy of development（easy code、interactive shell）、unified stack（一站式解决）、development flexibilty

MapReduce局限性：
1、繁杂：map/reduce只提供了两个算子。
//有一种场景只有mapjoin的方式没有reduce，即使再简单的功能都需要跑MapReduce的
low-level、constrained

	mapreduce开发完后测试也繁杂，开发完一个功能后需求变更，改完代码扔到测试环境上去。

2、效率低：
进程级别：MapTask和ReduceTask都是有一堆进程在那个地方的
IO : chain 网络+磁盘
eg：第一个作业输出作为第二个作业输入，借助于存储，第一个作业输出存储到HDFS上；这种场景会有很大的网络磁盘IO
排序：在很多场景下排序是没有必要的
Memory：可以基于内存做处理，但是是有限的。
3、不适合迭代处理
4、MapReduce只能离线处理，不适合实时流式处理
很多框架各自为战

对于生态系统中有很多框架各自为战：
eg：比如说我们做一个综合性的操作，第一步做ETL，ETL的数据源通常来自HDFS，HDFS读出来的数据通过ETL要写到HDFS write，使用Hadoop/hive来操作；
第三步做一个机器学习相关的，需要做一些训练Train，使用Mahout来解决；
第三步对训练结果做一些查询（query）操作，我们使用Hive

对于Spark来说呢，会减少很多中间过程的读和写；ETL --> Train这一步，可以基于RDD,DF，DS来做数据交换，Train --> Query 基于RDD、DF、DS
在这里插入图片描述