![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark源码
曾二爷
这个作者很懒,什么都没留下…
展开
-
精通spark源码-rdd是如何运行的
一、spark执行过程的一个例子// rdd_people: id,年龄var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) )//rdd_score: id,成绩var rdd_score =sc.range(1, 100, 1).map(i=>(i ,i+2))//两个进行joinvar rdd_res ...原创 2019-01-21 13:21:13 · 390 阅读 · 1 评论 -
从源码解密spark内存管理
内存不过是计算机分级存储系统中的靠近cpu的一个存储介质。spark运行起来内存里都存的啥? 如何管理里面所存的东西? spark用java和scala这样的jvm语言写的,没有像c语言那样显式申请释放内存,如何进行内存的管理的? 我们应该如何设置spark关于内存的参数?我们一起来解决这些问题一、内存模型远古大神曾告诉我们这个神秘公式:程序=算法+数据。1.1 什么是内存...原创 2019-01-27 18:00:48 · 487 阅读 · 0 评论 -
spark核心构件之partitioner
spark 核心思想之一就是数据分区,将数据分成很多个part,一个一个的进行处理这样的设置达到了以下的目的。1、实现分布式2、可以减少内存占用3、还能方便的做任务重跑4、而且将统一个key的数据聚集到一起,方便join、group等操作一、partitioner的定义1.1 partition首先我们来看下partition的定义//Partition.scalatr...原创 2019-02-01 17:01:36 · 360 阅读 · 0 评论 -
spark核心构件之Dependency(依赖)
之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。一、rdd如何构成dag上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,rdd之间的关系主要的其实就是分区之间的关系,也就是子rdd的某个分区数据需要依赖哪些rdd的哪些分区计...原创 2019-03-23 12:30:53 · 473 阅读 · 0 评论