reduceByKey和groupByKey的区别 两者都会先根据关键字分组 不同点在于: reduceByKey在分区内会进行预聚合,而后再将所有分区的数据按照关键字来分组聚合。 而groupByKey则不会先进行预聚合,它直接将所有分区的数据一起分组,如果要再进行聚合,则groupByKey还需要使用其他函数,比如sum() groupByKey:直接分组聚合 reduceByKey:先在各个分区预聚合,再分组聚合