SparkSQL相关操作

最新推荐文章于 2023-04-25 17:47:21 发布

健鑫.

最新推荐文章于 2023-04-25 17:47:21 发布

阅读量319

点赞数 1

分类专栏： spark 文章标签：大数据 spark scala

本文链接：https://blog.csdn.net/weixin_62759952/article/details/128705059

版权

spark 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

SparkSQL相关操作

sparkSQL的应用程序入口为SparkSession，用来加载不同的数据源的数据，封装到DataFrame或Dataset中

RDD => DataFrame/DataSet

指定列名来创建DF

object SparkSQLTest {

  def main(args: Array[String]): Unit = {

    // 创建配置对象
    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLTest")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val sc = spark.sparkContext

    val list = List((1, "jx", 20), (2, "zx", 21))

    val rdd = sc.makeRDD(list)

    // RDD => DataFrame => DataSet转换需要引入隐式转换规则
    // spark是环境名
    import spark.implicits._
    // 可以添加schema
    val df = rdd.toDF("id", "name", "age")
    df.printSchema()
    df.show()


  }

}

/*
* 不添加schema的输出
*  root
 |-- _1: integer (nullable = false)
 |-- _2: string (nullable = true)
 |-- _3: integer (nullable = false)
 * 
 * +---+---+---+
| _1| _2| _3|
+---+---+---+
|  1| jx| 20|
|  2| zx| 21|
+---+---+---+
* 
* 
* 添加schema的输出
* root
 |-- id: integer (nullable = false)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = false)
 * 
 * +---+----+---+
| id|name|age|
+---+----+---+
|  1|  jx| 20|
|  2|  zx| 21|
+---+----+---+
* */

使用样例类来创建DF

object SparkSQLTest {

  def main(args: Array[String]): Unit = {

    // 创建配置对象
    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLTest")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val sc = spark.sparkContext

    val line = sc.textFile("data/input.txt")

    val rdd = line.map(_.split(" "))

//    val rdd1 = rdd.map(_.split(" "))

    val rdd1 = rdd.map(arr => Person(arr(0).toInt, arr(1), arr(2).toInt))

    // RDD => DataFrame => DataSet转换需要引入隐式转换规则
    // spark是环境名
    import spark.implicits._
    // 可以添加schema
    val df = rdd1.toDF
    df.printSchema()
    df.show()


  }

}

/*
* root
 |-- id: integer (nullable = false)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = false)

* +---+----+---+
| id|name|age|
+---+----+---+
|  1|  jx| 20|
|  2|  zx| 21|
+---+----+---+
*
* */

自定义Schema

object SparkSQLTest {

  def main(args: Array[String]): Unit = {

    // 创建配置对象
    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLTest")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val sc = spark.sparkContext

    val line = sc.textFile("data/input.txt")

    val rdd = line.map(_.split(" "))

//    val rdd1 = rdd.map(_.split(" "))

    val rdd1 = rdd.map(arr => Row(arr(0).toInt, arr(1), arr(2).toInt))

    // RDD => DataFrame => DataSet转换需要引入隐式转换规则
    // spark是环境名
    import spark.implicits._
    // 可以添加schema
    val schema = StructType(
      Array(
        StructField("id", IntegerType, true),
        StructField("name", StringType, true),
        StructField("age", IntegerType, true)
      )
    )

    val df = spark.createDataFrame(rdd1, schema)
    df.printSchema()
    df.show()


  }

}

/*
* root
 |-- id: integer (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 * 
 * +---+----+---+
| id|name|age|
+---+----+---+
|  1|  jx| 20|
|  2|  zx| 21|
+---+----+---+
* 
* */