自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark 算子 经典习题

数据: 班级 ID 姓名 年龄 性别 科目 成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 70 12 王芳 19 女 math 70 12 王芳 19 女 english 70 12 小蔡 19 女 chinese 70 12 小蔡 19 女 math 100

2020-08-04 19:51:24 340

原创 Spark combineByKey算子详解

combineByKey:第一个传入的参数不再是初始值,意味着可以对数据的类型发生变化 def combineByKey[C](createCombiner: V => C,mergeValue: (C, V) => C,mergeCombiners: (C, C) => C): RDD[(K, C)] createCombiner: 分区内,相同的key的value只执行一次,后续的value,执行mergeValue函数 mergeValue:分区内操作函数,相同key的剩余的val

2020-08-02 16:32:58 193

原创 Spark aggregateByKey 算子详解

aggregateByKey def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算 seqOp: 区间内计算,每个分区中,同一种key的value进行操作 combOp: 区间之间计算,各个分区得到的结果,与其他分区

2020-08-01 16:29:38 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除