RDD转DF的两种方式

最新推荐文章于 2023-08-01 07:45:12 发布

Michael-DM

最新推荐文章于 2023-08-01 07:45:12 发布

阅读量4.8k

点赞数

分类专栏：学习 # Spark

本文链接：https://blog.csdn.net/weixin_46235157/article/details/105059365

版权

本文介绍了将RDD转换为DataFrame的两种方法。第一种方法是通过定义case class，使用map转换数据，再调用toDF。第二种方法适用于无法定义case class的情况，包括创建row类型的RDD、定义Schema和使用createDataFrame。

摘要由CSDN通过智能技术生成

1.第一种方式:

首先我们展示一下数据文件：

Michael, 29
Andy, 30
Justin, 19

然后我们开始编写第一种实现方法：
先写一个case calss，然后再map方式将数据转换成people形式通过toDF直接转换

def run1(sparkSession: SparkSession): Unit = {
   
		//隐式转换
	import sparkSession.implicits._
		//接收文件,是rdd类型
      val rdd: RDD[String] = sparkSession.sparkContext.textFile("data/people.txt")
      //根据逗号进行分割，将字段赋值给people
      val df: DataFrame = rdd.map(_.split(","))
      .map