2020年08月_TmisuCno

08月 07月 06月

原创 Spark 算子经典习题

数据：班级 ID 姓名年龄性别科目成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 70 12 王芳 19 女 math 70 12 王芳 19 女 english 70 12 小蔡 19 女 chinese 70 12 小蔡 19 女 math 100

2020-08-04 19:51:24 340

原创 Spark combineByKey算子详解

combineByKey:第一个传入的参数不再是初始值，意味着可以对数据的类型发生变化 def combineByKey[C](createCombiner: V => C,mergeValue: (C, V) => C,mergeCombiners: (C, C) => C): RDD[(K, C)] createCombiner: 分区内，相同的key的value只执行一次，后续的value，执行mergeValue函数 mergeValue:分区内操作函数，相同key的剩余的val

2020-08-02 16:32:58 193

原创 Spark aggregateByKey 算子详解

aggregateByKey def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] zeroValue: 初始值，每个分区中，同一种key，只用一次初始值，第一个值和zeroValue的结果，用于对应key的剩余值计算 seqOp: 区间内计算，每个分区中，同一种key的value进行操作 combOp: 区间之间计算，各个分区得到的结果，与其他分区

2020-08-01 16:29:38 267

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Spark 算子 经典习题

原创 Spark combineByKey算子详解

原创 Spark aggregateByKey 算子详解

空空如也

空空如也

原创 Spark 算子经典习题