spark
曾二爷
这个作者很懒,什么都没留下…
展开
-
精通spark源码-rdd是如何运行的
一、spark执行过程的一个例子 // rdd_people: id,年龄 var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) ) //rdd_score: id,成绩 var rdd_score =sc.range(1, 100, 1).map(i=>(i ,i+2)) //两个进行join var rdd_res ...原创 2019-01-21 13:21:13 · 399 阅读 · 1 评论 -
spark核心构件之Dependency(依赖)
之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。 一、rdd如何构成dag 上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,rdd之间的关系主要的其实就是分区之间的关系,也就是子rdd的某个分区数据需要依赖哪些rdd的哪些分区计...原创 2019-03-23 12:30:53 · 488 阅读 · 0 评论 -
【题目】划分版图-有点难
春招的金三银四呀我们来做个有挑战性的题目吧 一、题目内容 背景:long time ago,大地上有一些城市和一些道路,城市之间能够互通的称为国家,不同的国家的城市之间是无法相通的。如图的例子所示就是两个国家:蓝国和红国: 问题:现在我们拿到了一批数据,请从数据中判断有多少个国家,并且哪些城市是同为一个国家的.数据格式:数据的格式是以 [国家c,道路p] 这样的两个元素表示的,表示这个国...原创 2019-03-30 21:54:35 · 384 阅读 · 0 评论