Spark核心技术与高级应用

1. Spark的RDD操作:1)转换操作:通常转换操作是惰性的;2)执行操作:会得到执行;3)控制操作:用于故障恢复、持久化以及数据移除等,其中cache/persist是惰性的,Unpersist是及时的。

2. Spark在发生数据丢失时会采用折中方案,他会重新执行之前的步骤来恢复数据。假如其中一个RDD分区坏掉,因为Spark记录了依赖关系lineage,只需要执行其相应的父RDD就可以。但是跨宽依赖会涉及多个父RDD,从而引发全部RDD的执行。为了避免这种情况,Spark会保持Map阶段中间数据的持久,在机器发生故障的情况下,只需要回溯相应的分区,获取中间数据。Spark还提供了数据检查点和记录日志,用于持久化RDD,这样执行就不必追溯到最开始阶段。

3. RDD持久化:主动和被动。主动持久化主要是为了数据复用,从而实现快速处理。持久化的等级选择:内存、内存序列化、内存和硬盘、OFF_HEAP(Tachyon)等等。

4. 广播变量和累加器。简单来说,广播变量是Executor和Driver之间的通信。对于广播变量,Driver修改,光波导所有节点,Executor读取;对于累加器,Executor赋值,Driver读取。

5. SparkClient负责任务的提交,Driver进程通过运行用户定义的main函数,在集群上执行各种并发操作和计算。SparkContext是应用程序和集群交互的唯一通道,主要包括获取数据、交互操作、分析和构建DAG、通过Scheduler调度任务、Block跟踪、Shuffle跟踪等。用户通过Client提交一个任务给Driver之后,Driver会将所有的RDD依赖关联在一起绘制成一张DAG,当运行任务时,调度Scheduler会配合组件Block Tracker和Shuffle Tracker进行工作;通过ClusterManager进行资源统一调配;具体任务在worker节点执行,由Task线程池负责具体任务执行,线程池通过多个Task运行任务。由BlockManager进行存储管理,数据在内存中可以保存多份,一方面进行备份,一方面支持RetryTask和StragglingTask快速恢复。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值