- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 spark源码分析之Checkpoint的过程
概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常耗时,因此,有必要将计算代价较大的 RDD checkpoint 一下,当下游 RDD 计算出错时,可以直接从 checkpoint 过的 RDD 那里读取数据继续算。我们先来看一个例子,che
2017-03-29 17:51:15 672 2
原创 spark源码分析之任务调度篇
DAG的生成概述 DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换处理在Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依据。
2016-04-19 21:34:00 1688
原创 spark源码分析之Executor启动与任务提交篇
任务提交流程概述 在阐明了Spark的Master的启动流程与Worker启动流程。接下继续执行的就是Worker上的Executor进程了,本文继续分析整个Executor的启动与任务提交流程Spark-submit提交一个任务到集群通过的是Spark-submit 通过启动脚本的方式启动它的主类,这里以WordCount为例子 `spark-submit –class cn.itcas
2016-04-19 21:32:27 9118
原创 spark源码分析Master与Worker启动流程篇
spark通信流程 概述 spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的Master的启动流程与Worker启动流程。现在Spark最新版本为1.6,但是代码的逻辑不够清晰,不便于理解,这里以1.3为准Master启动我们启动一个Mast
2016-04-19 21:29:52 4031 1
原创 HDFS的工作流程分析
HDFS的工作机制概述HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本,并存放在不同的datanode上Datanode会定期向Namenode汇报自身所保存的文件block信
2016-04-19 21:26:54 4078
原创 Service的生命周期和使用
绑定本地服务调用方法的步骤:1.在服务的内部创建一个内部类 提供一个方法,可以间接调用服务的方法private class MiddlePerson extends Binder implements IMiddlePerson{}2.实现服务的onbind方法,返回的就是中间人 MiddlePerson3.在activity 绑定服务。bindService();4.在服务成
2014-11-23 00:11:50 626
原创 Linux常用命令
1. 显示当前目录所有的文件和目录信息 > ls //list > ls XX目录 //查看指定目录下边的文件信息2. 显示当前文件目录位置 > pwd3. 目录之间切换 > cd 目录名字 > cd .. 切换到上级目录4. 切换到完全命令模式 > init 3 进入命令模
2014-11-23 00:09:04 451
转载 Eclipse控制台键盘输入乱码问题的解决
import java.util.*;public class UseScanner { public static void main(String argv[]) { Scanner in = new Scanner(System.in); System.out.print("请输入你的姓名:"); String name = in.n
2014-07-31 15:58:39 1082
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人