一、环境准备(Yarn 集群) SparkSubmit起点: 上述流程梳理: 二、组件通信(Socket) 上述流程梳理: 三、应用程序的执行 RDD依赖: 阶段划分: 任务切分: 任务的调度: 四、Shuffle shuffle的演变过程: 写流程详解: 归并排序和读流程: 五、内存的管理