Spark: createDataFrame() vs toDF()

无艳影

已于 2022-10-14 02:10:47 修改

阅读量2.3k

点赞数 2

分类专栏： spark 文章标签： scala spark 大数据

于 2022-10-14 02:10:03 首次发布

原文链接：https://blog.knoldus.com/spark-createdataframe-vs-todf/

版权

spark 专栏收录该内容

9 篇文章

订阅专栏

本文探讨了Spark中创建DataFrame的两种方法——toDF()和createDataFrame()。toDF()适用于简洁创建DataFrame，但无法控制列类型和可空性。而createDataFrame()允许完全定制模式，适合于本地测试和生产环境。在生产环境中，createDataFrame()是更好的选择，因为它提供了更多的灵活性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Spark中，有两种不同的方法来创建Dataframe。首先，使用toDF()，其次是使用createDataFrame()。在这篇博客中，我们将看到如何使用这两种方法来创建Dataframe，以及它们之间的具体区别是什么。
toDF()

toDF()方法提供了一个非常简洁的方法来创建一个Dataframe。这个方法可以应用于一连串的对象。为了访问toDF()方法，我们必须在spark session之后导入spark.implicits._。

val empDataFrame = Seq(("Alice", 24), ("Bob", 26)).toDF("name", "age")
empDataFrame: org.apache.spark.sql.DataFrame = [name: string, age: int] 。

在上面的代码中，我们在一个Tuple2序列上应用了toDF()，并向每个元组传递了两个字符串 "name "和 "age"。这两个字符串将被映射为empDataFrame的列。让我们打印一下empDataFrame的模式。

我们可以看到，spark已经为每一列应用了列类型和nullable标志。列名的列类型为字符串，可归零标志为真，同样，列年龄的列类型为整数，可归零标志为假。所以，从上面我们可以得出结论，在toDF()方法中，我们不能控制列的类型和nullable标志。这意味着对模式的定制没有控制。在大多数情况下，toDF()方法只适用于本地测试。
createDataFrame()

createDataFrame()方法解决了toDF()方法的限制。通过createDataFrame()方法，我们可以控制完整的模式定制。

输入org.apache.spark.sql.Row

val empData = Seq(Row("Alice", 24), Row("Bob", 26))
empData: Seq[org.apache.spark.sql.Row] = List([Alice,24], [Bob,26])

让我们为上述empData定义模式。

import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

val empSchema = List(StructField("name", StringType, true), StructField("age", IntegerType, true))
empSchema。List[org.apache.spark.sql.types.StructField] = List(StructField(name, StringType, true), StructField(age, IntegerType, true) )

empDataFrame的模式已经用StructField的列表定义好了。我们已经向每个StructField传递了三个参数，即列的名称，列的类型，以及一个可忽略的标志。现在，将empData和empSchema传递给createDataFrame()方法并创建empDataFrame。

val empDataFrame = spark.createDataFrame(spark.sparkContext.parallelize(empData), StructType(empSchema))
empDataFrame: org.apache.spark.sql.DataFrame = [name: string, age: int] 。

通过这种方式，我们可以控制列的名称、列的类型和nullable标志。当我们在集群上运行我们的代码或在生产中运行我们的代码时，使用createDataFrame()方法是很好的，因为它有利于本地测试。
总结

createDataFrame()和toDF()方法是在spark中创建DataFrame的两种不同方式。通过使用toDF()方法，我们不能控制模式的定制，而在createDataFrame()方法中，我们可以完全控制模式的定制。使用toDF()方法只能用于本地测试。但我们可以使用createDataFrame()方法进行本地测试，也可以在生产中运行代码。