Spark核心技术与高级应用

最新推荐文章于 2022-06-13 23:59:49 发布

zhshuai1

最新推荐文章于 2022-06-13 23:59:49 发布

阅读量386

点赞数

分类专栏：共享

本文链接：https://blog.csdn.net/zhshuai1/article/details/83781979

版权

共享专栏收录该内容

55 篇文章 0 订阅

订阅专栏

1. Spark的RDD操作：1)转换操作：通常转换操作是惰性的；2)执行操作：会得到执行；3)控制操作：用于故障恢复、持久化以及数据移除等，其中cache/persist是惰性的，Unpersist是及时的。

2. Spark在发生数据丢失时会采用折中方案，他会重新执行之前的步骤来恢复数据。假如其中一个RDD分区坏掉，因为Spark记录了依赖关系lineage，只需要执行其相应的父RDD就可以。但是跨宽依赖会涉及多个父RDD，从而引发全部RDD的执行。为了避免这种情况，Spark会保持Map阶段中间数据的持久，在机器发生故障的情况下，只需要回溯相应的分区，获取中间数据。Spark还提供了数据检查点和记录日志，用于持久化RDD，这样执行就不必追溯到最开始阶段。

3. RDD持久化：主动和被动。主动持久化主要是为了数据复用，从而实现快速处理。持久化的等级选择：内存、内存序列化、内存和硬盘、OFF_HEAP(Tachyon)等等。

4. 广播变量和累加器。简单来说，广播变量是Executor和Driver之间的通信。对于广播变量，Driver修改，光波导所有节点，Executor读取；对于累加器，Executor赋值，Driver读取。

5. SparkClient负责任务的提交，Driver进程通过运行用户定义的main函数，在集群上执行各种并发操作和计算。SparkContext是应用程序和集群交互的唯一通道，主要包括获取数据、交互操作、分析和构建DAG、通过Scheduler调度任务、Block跟踪、Shuffle跟踪等。用户通过Client提交一个任务给Driver之后，Driver会将所有的RDD依赖关联在一起绘制成一张DAG，当运行任务时，调度Scheduler会配合组件Block Tracker和Shuffle Tracker进行工作；通过ClusterManager进行资源统一调配；具体任务在worker节点执行，由Task线程池负责具体任务执行，线程池通过多个Task运行任务。由BlockManager进行存储管理，数据在内存中可以保存多份，一方面进行备份，一方面支持RetryTask和StragglingTask快速恢复。