问题的提出
在进行数据处理时,我们经常遇到这样的需求:把同一个key的数据写到同一个文件/文件夹中。
这样,在进行后续的处理,比如查看某个key占的磁盘空间,单独处理某个key的数据等都会非常方便。
解决方案
通过dataframe来解决这个问题很方便。方案就是:通过该key进行分区,这样同一个key的值就都分配到一个分区中了。
val people_rdd = sc.parallelize(Seq((1, "alice"), (1, "bob"), (2, "charlie")))
val people_df = people_rdd.toDF("number", "name")
people_df.write.partitionBy("number").text("people")
或则写成其他文件格式:
people_df.write.partitionBy("number").json("people-json")
people_df.write.partitionBy("number").parquet("people-parquet")
通过dataframe来实现该功能非常方便,其实就是按照某个字段先分区,若要排序也可以按分区进行排序,然后再按规定的格式写入即可。
要注意的是,写入的分区数据会按分区创建一个文件夹,同一个分区的数据在同一个文件夹中。若分区数太多,则创建的分区文件夹也会很多。
另外,在写数据的时候也可以对数据先进行排序,这样就得到了一个排好序的数据文件。
小结
本文讲述了如何把一个同一个key的文件写入到同一个文件/文件夹的方法。