- 博客(24)
- 资源 (29)
- 收藏
- 关注
转载 spark算子系列文章
Spark算子系列文章Spark算子:RDD创建操作Spark算子:RDD基本转换操作(1)–map、flagMap、distinctSpark算子:RDD基本转换操作(2)–coalesce、repartitionSpark算子:RDD基本转换操作(3)–randomSplit、glomSpark算子:RDD基本转换操作(4)–union、intersec
2016-09-27 21:51:41 3018
转载 Spark算子:RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues
关键字:Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValuespartitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。scala> var rdd1 =
2016-09-26 14:03:48 2557
转载 Spark算子:RDD键值转换操作(2)–combineByKey、foldByKey
combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>
2016-09-26 14:03:11 656
转载 Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally
关键字:Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocallygroupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupBy
2016-09-26 14:02:25 1618
转载 Spark算子:RDD键值转换操作(4)–cogroup、join
关键字:Spark算子、Spark RDD键值转换、cogroup、joincogroup##参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): R
2016-09-26 14:01:54 1176
转载 Spark算子:RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey
关键字:Spark算子、Spark RDD键值转换、leftOuterJoin、rightOuterJoin、subtractByKeyleftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)],
2016-09-26 14:01:32 1636
转载 Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
关键字:Spark算子、Spark RDD行动Action、first、count、reduce、collectfirstdef first(): Tfirst返回RDD中的第一个元素,不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spar
2016-09-26 14:01:10 4192
转载 Spark算子:RDD行动Action操作(2)–take、top、takeOrdered
关键字:Spark算子、Spark RDD行动Action、take、top、takeOrderedtakedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素,不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.r
2016-09-26 14:00:50 1391
转载 Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
aggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用户聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特
2016-09-26 14:00:27 635
转载 Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
关键字:Spark算子、Spark函数、Spark RDD行动Action、countByKey、foreach、foreachPartition、sortBycountByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。scala> var rdd1 = sc.makeRDD(Array((
2016-09-26 14:00:00 852
转载 Spark算子:RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFilesaveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, c
2016-09-26 13:59:32 10225
转载 Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsHadoopFile、saveAsHadoopDatasetsaveAsHadoopFiledef saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputForma
2016-09-26 13:59:09 4953 1
转载 Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDatasetsaveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: Stri
2016-09-26 13:58:45 5088 1
转载 Spark算子:RDD基本转换操作(1)–map、flatMap、distinct
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HDFS文件到RDDsc...
2016-09-26 13:57:44 6781
转载 Spark算子:RDD创建操作
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(i
2016-09-26 13:57:16 3006
转载 Spark算子:RDD基本转换操作(2)–coalesce、repartition
coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数为重分区的数目,第二个为是否进行shuffle,默认为false;以下面的例
2016-09-26 13:56:49 944
转载 Spark算子:RDD基本转换操作(3)–randomSplit、glom
randomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重,将一个RDD切分成多个RDD。该权重参数为一个Double数组第二个参数为random的种子,基本可忽略。scala> var rd
2016-09-26 13:56:27 4421
转载 Spark算子:RDD基本转换操作(4)–union、intersection、subtract
uniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 sca
2016-09-26 13:56:03 2319
转载 Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
mapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]该函数和map函数类似,只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。
2016-09-26 13:55:39 1477
转载 Spark算子:RDD基本转换操作(6)–zip、zipPartitions
zipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。scala> var rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.a
2016-09-26 12:01:42 847
转载 Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId
Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId Spark lxw1234@qq.com 1年前 (2015-07-06) 5714℃ 0评论关键字:Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex():
2016-09-26 12:00:54 2789
转载 JVM常用参数与工具
原文出处:http://www.cnblogs.com/zhguang/p/java-jvm-gc.html目录参数设置收集器搭配启动内存分配监控工具和方法调优方法调优实例 光说不练假把式,学习Java GC机制的目的是为了实用,也就是为了在JVM出现问题时分析原因并解决之。通过学习,我觉得JVM监控与调优主要的着眼点在于如何配置、如何监控、如何优化3点上。下面就将针对这3点进行学习。 ...
2016-09-23 10:02:38 1912
转载 使用 Java 8 Optional 的正确姿势
我们知道 Java 8 增加了一些很有用的 API, 其中一个就是 Optional. 如果对它不稍假探索, 只是轻描淡写的认为它可以优雅的解决 NullPointException 的问题, 于是代码就开始这么写了OptionalUser> user = ...... if (user.isPresent()) { return user.getOrders();} else {
2016-09-11 11:30:23 36378 8
转载 Maven assembly实现自定义打包
maven-assembly-plugin : 是maven中针对打包任务而提供的标准插件(1)、在pom.xml 文件里面的配置说明[html] view plain copyplugin> artifactId>maven-assembly-pluginartifactId> executions>
2016-09-08 15:48:00 2540
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人