Spark
文章平均质量分 62
eddieVim
Undefined
展开
-
Spark-CombineByKey函数
combineByKey CombineByKey这一函数过程就是根据Key值,将Value值进行合并的过程。 参数解释 def combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] = { } createCombiner: V => C:如何处理第一个Value mergeValue原创 2021-01-30 17:08:43 · 163 阅读 · 0 评论 -
说一说Spark-RDD(一)
RDD A Resilient Distributed Dataset (RDD). 一个弹性的分布式数据集合。 RDD数据集有5个主要的属性: 在RDD的源码内部,有以下注释,理解即可。 有分区列表,指RDD这个对象中,是知道各个分区数据在分布式文件系统中的哪个位置。 有相同的函数可以用于计算每个切片的数据 有该RDD数据集合所依赖的数据集合列表 可选的,可以有对Key-Value进行分区操作的分区器(例如:默认是hash值分区) 可选的,RDD会更加偏向于数据本地化计算(在每个切片所在的位置进原创 2021-01-23 21:28:09 · 180 阅读 · 2 评论