spark
blueheart丶
If I had eight hours to chop down a tree, I would spend six hours sharpening my axe。
展开
-
map vs mapPartitions
版本:Apache spark 1.6.0源码:RDD.scala一、源码说明1、map算子// Transformations (return a new RDD)/** * Return a new RDD by applying a function to all elements of this RDD. */def map[U: ClassTag](f: T =&g...转载 2019-01-04 18:12:43 · 534 阅读 · 0 评论 -
reduce和reduceByKey区别
1、reduce 是用于一元组,遍历一元组的数据,进行处理。List<Integer> data = Arrays.asList(1,2,3,4,5,6);JavaRDD<Integer> parallelizeRdd = jsc.parallelize(data);Integer reduceSum = parallelizeRdd.reduce(new Fu...原创 2019-01-07 17:57:22 · 2812 阅读 · 0 评论 -
spark算子学习笔记
第一天学习-------transformation1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))join后的分区数与父RDD分区数多的那一个相同。2、union 合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并R...原创 2019-01-21 15:30:52 · 172 阅读 · 0 评论 -
spark的topn问题
1、按第一个字段从大到小降序取出前三个字段3,zhangsan5,lisi6,wangwu7,wermaziang1,bjsxt4,shsxt5,xiansxt6,gzsxt9,laogao0,xiaogao3,laoxiaoJavaRDD<String> linesRDD = sc.textFile("top.txt");JavaPairRDD&l...原创 2019-02-13 22:04:43 · 644 阅读 · 0 评论