partitionBy(self, numPartitions, partitionFunc=portable_hash): 函数里主要有两个参数,一个是numPartitions ,这个是分区的数量,大家都知道。
另一个是partitionFunc,这个分区的函数,默认是哈希函数。当然我们也可以来自定义:
data = sc.parallelize(['1', '2', '3', ]).map(lambda x: (x,x)).collect()
wp = data.partitionBy(data.count(),lambda k: int(k))
print wp.map(lambda t: t[0]).glom()