spark内核解密
听风的蜗牛
专注hadoop,spark大数据,数据挖掘,机器学习。
展开
-
14.RDD深度解析
开篇:spark各种库,sparksql,sparkmachicelearning,等这么多库底层都是封装的RDD。意味着1:RDD本身提供了通用的抽象,2:spark现在有5个子框架,sql,Streaming,流式处理,机器学习,图计算,sparkR。可以根据具体领域的内容建模,建第6个库,第7个库。必须掌握spark的这个通用抽象基石-RDD. 1:RDD,基于工作集的分布...2016-04-22 20:42:17 · 197 阅读 · 0 评论 -
15.RDD 创建
第15课:RDD创建内幕1. RDD的创建方式Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体的算法Spark中的基本方式:1) 使用程序中的集合创建这种方式的实际意义主要用于测试。2) 使用本地文件系统创建这种方式的实际意...2016-04-23 10:55:15 · 180 阅读 · 0 评论 -
16.RDD 实战
由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller1. TransformationTransformation是通过转化针对已有的RDD创建出新的RDDmap(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这个返回的...2016-04-23 15:58:24 · 145 阅读 · 0 评论 -
25.Spark Sort-Based Shuffle内幕彻底解密
一:为什么需要Sort-Based Shuffle?1, Shuffle一般包含两个阶段任务:第一部分:产生Shuffle数据的阶段(Map阶段,额外补充,需要实现ShuffleManager中的getWriter来写数据(数据可以通过BlockManager写到Memory,Disk,Tachyon等,例如想非常快的Shuffle,此时可以考虑把数据写在内存中,但是内存不稳定,所以可...2016-04-26 20:52:22 · 166 阅读 · 0 评论 -
35.Spark系统运行内幕机制循环流程
一:TaskScheduler原理解密1, DAGScheduler在提交TaskSet给底层调度器的时候是面向接口TaskScheduler的,这符合面向对象中依赖抽象而不依赖的原则,带来底层资源调度器的可插拔性,导致Spark可以运行的众多的资源调度器模式上,例如Standalone、Yarn、Mesos、Local、EC2、其它自定义的资源调度器;在Standalone的模式下我们聚...2016-05-03 10:26:56 · 122 阅读 · 0 评论 -
Spark 源码解析 : DAGScheduler中的DAG划分与提交
一、Spark 运行架构 Spark 运行架构如下图:各个RDD之间存在着依赖关系,这些依赖关系形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG,进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分,DAGScheduler基于每个Stage生成TaskSet,并将TaskSet...原创 2016-07-20 10:35:54 · 207 阅读 · 0 评论