- 博客(1)
- 收藏
- 关注
原创 Spark算子
一、Transformation算子1.1 产生shuffle的算子:groupBy:按照指定字段进行分组,生成RDD元素类型是KV键值对。distinct:去重。coalesce:增大分区时需设置shuffle为true,如果减少分区,建议使用coalesce,减少分区使用coalesce可以避免shuffle操作,提高线程的利用率repartition:可增多也可以减少分区,会产生shuffle。sortBy:按照指定字段进行排序,底层采用RangeParititioner分区器in
2022-05-02 20:55:54
1532
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人