spark大数据分析:spark SQL (14)RDD , DataFrame,DataSet之间转换

RDD 与DataFrame转换

RDD 通过toDF函数转换 DataFrame

    val rddData1 = spark.sparkContext.parallelize(Array(("Alice", "18", "Female"), ("Mathew", "20", "Male")))
    val df1 = rddData1.toDF("name", "age", "sex")
    df1.show

DataFrame 通过调用rdd方法转换为RDD

 df1.rdd.collect

RDD 与dataSet 转换

RDD 通过toDS函数转换 DataFrame

import org.apache.spark.sql.SparkSession

object TestSQL2 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[*]")
      .appName("test")
      .enableHiveSupport()
      .getOrCreate()
    import spark.implicits._
    val rddData2 = spark.sparkContext.parallelize(Array(("Alice", "18", "Female"), ("Mathew", "20", "Male")))
    val rddData3 = rddData2.map(t => User(t._1, t._2.toInt, t._3))
    val ds1 = rddData3.toDS()
    ds1.show
    spark.stop()
  }
}

 case class User(name: String, age: Int, sex: String)

dataSet 通过调用rdd方法转换为RDD

    ds1.rdd.count()

DataFrame 与 DataSet转换

  val df2 = spark.createDataFrame(List(
      ("Alice", "Female", "20"),
      ("Tom", "Male", "25"),
      ("Boris", "Male", "18"))).toDF("name", "sex", "age")
    val ds2 = df2.as[Person]
    ds2.show
 case class Person(name: String, age: String, sex: String)

Dataset 通过toDF DataFrame

    ds2.toDF().show

由于DataSet数据强数据类型,DataFrame中数据转换DataSet时,对应column中要求个数,类型强一致

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值