如何把同一个key的数据都写入到同一个文件/文件夹中？_spark 找出key相同的数据输出到同一个文件中-CSDN博客

本文链接：https://blog.csdn.net/zg_hover/article/details/109235083

本文介绍如何使用Spark DataFrame通过'number'字段分区，将数据按key写入文件夹，支持文本、JSON和Parquet格式，并强调了排序和文件结构管理的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题的提出

在进行数据处理时，我们经常遇到这样的需求：把同一个key的数据写到同一个文件/文件夹中。
这样，在进行后续的处理，比如查看某个key占的磁盘空间，单独处理某个key的数据等都会非常方便。

解决方案

通过dataframe来解决这个问题很方便。方案就是：通过该key进行分区，这样同一个key的值就都分配到一个分区中了。

val people_rdd = sc.parallelize(Seq((1, "alice"), (1, "bob"), (2, "charlie")))
val people_df = people_rdd.toDF("number", "name")
people_df.write.partitionBy("number").text("people")

或则写成其他文件格式：

people_df.write.partitionBy("number").json("people-json")
people_df.write.partitionBy("number").parquet("people-parquet")

通过dataframe来实现该功能非常方便，其实就是按照某个字段先分区，若要排序也可以按分区进行排序，然后再按规定的格式写入即可。
要注意的是，写入的分区数据会按分区创建一个文件夹，同一个分区的数据在同一个文件夹中。若分区数太多，则创建的分区文件夹也会很多。

另外，在写数据的时候也可以对数据先进行排序，这样就得到了一个排好序的数据文件。

小结

本文讲述了如何把一个同一个key的文件写入到同一个文件/文件夹的方法。