- 博客(3)
- 收藏
- 关注
原创 Spark 算子 经典习题
数据: 班级 ID 姓名 年龄 性别 科目 成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 70 12 王芳 19 女 math 70 12 王芳 19 女 english 70 12 小蔡 19 女 chinese 70 12 小蔡 19 女 math 100
2020-08-04 19:51:24 340
原创 Spark combineByKey算子详解
combineByKey:第一个传入的参数不再是初始值,意味着可以对数据的类型发生变化 def combineByKey[C](createCombiner: V => C,mergeValue: (C, V) => C,mergeCombiners: (C, C) => C): RDD[(K, C)] createCombiner: 分区内,相同的key的value只执行一次,后续的value,执行mergeValue函数 mergeValue:分区内操作函数,相同key的剩余的val
2020-08-02 16:32:58 193
原创 Spark aggregateByKey 算子详解
aggregateByKey def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算 seqOp: 区间内计算,每个分区中,同一种key的value进行操作 combOp: 区间之间计算,各个分区得到的结果,与其他分区
2020-08-01 16:29:38 267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人