sparkSQL中Dataframe的使用

最新推荐文章于 2024-07-23 16:14:33 发布

yiluohan0307

最新推荐文章于 2024-07-23 16:14:33 发布

阅读量1k

点赞数

分类专栏： spark SQL spark从入门到放弃文章标签： spark 分布式

本文链接：https://blog.csdn.net/yiluohan0307/article/details/79467736

版权

spark从入门到放弃同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

spark SQL

5 篇文章 0 订阅

订阅专栏

sparkSQL中Dataframe的使用

一、简介

Spark SQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。SparkSQL最重要的功能之一，就是从Hive中查询数据。

DataFrame，可以理解为是，以列的形式组织的，分布式的数据集合。它其实和关系型数据库中的表非常类似，但是底层做了很多的优化。DataFrame可以通过很多来源进行构建，包括：结构化的数据文件，Hive中的表，外部的关系型数据库，以及RDD。

二、DataFrame的创建

要使用SparkSQL，首先就得创建一个创建一个SQLContext对象，或者是它的子类的对象，比如HiveContext的对象。

Scala版本：
val sc: SparkContext = ...
val sqlContext = new SQLContext(sc)
import sqlContext.implicits._

spark2.X版本

Scala版本：
import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.executor.memory", "100g")
  .config("spark.cores.max", "72")
  .config("spark.dynamicAllocation.enabled", "false")
  .getOrCreate()

// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._

除了基本的SQLContext以外，还可以使用它的子类——HiveContext。HiveContext的功能除了包含SQLContext提供的所有功能之外，还包括了额外的专门针对Hive的一些功能。这些额外功能包括：使用HiveQL语法来编写和执行SQL，使用Hive中的UDF函数，从Hive表中读取数据。

要使用HiveContext，就必须预先安装好Hive，SQLContext支持的数据源，HiveContext也同样支持——而不只是支持Hive。对于Spark 1.3.x以上的版本，都推荐使用HiveContext，因为其功能更加丰富和完善。

Spark SQL还支持用spark.sql.dialect参数设置SQL的方言。使用SQLContext的setConf()即可进行设置。对于SQLContext，它只支持“sql”一种方言。对于HiveContext，它默认的方言是“hiveql”。

dataframe的创建和操作
方法一：

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by cuiyufei on 2018/3/7.
  * dataframe实战
  */
object sparkStudy {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("dataframeOperation").setMaster("local")
    val sc = new SparkContext(conf)
    val sparkSQL = new SQLContext(sc)
    val df = sparkSQL.read.json("f://spark//students.json")
    df.show()//打印DataFrame中所有的数据（select * from ...）
    df.printSchema()//打印DataFrame的元数据（Schema）
    df.select("name").show()//查询某列所有的数据
    df.select(df("name"), df("age")+1).show()//查询某几列所有的数据，并对列进行计算
    df.filter(df("age")>18).show()// 根据某一列的值进行过滤
    df.groupBy("age").count().show()// 根据某一列进行分组，然后进行聚合
    df.createOrReplaceTempView("student")
    val stuDF = sparkSQL.sql("select * from student")
    stuDF.show()
  }

}

方法二：

import org.apache.spark.sql.SparkSession

/**
  * Created by cuiyufei on 2018/3/7.
  * dataframe实战
  */
object sparkStudy {
  def main(args: Array[String]) {
    val spark = SparkSession
      .builder()
      .appName("Spark SQL basic example")
      .master("local")
      .getOrCreate()
    import spark.implicits._

    val df = spark.read.json("f://spark//students.json")
    df.show()//打印DataFrame中所有的数据（select * from ...）
    df.printSchema()//打印DataFrame的元数据（Schema）
    df.select("name").show()//查询某列所有的数据
    //df.select(df("name"), df("age")+1).show()//查询某几列所有的数据，并对列进行计算
    df.select($"name", $"age"+1).show()//查询某几列所有的数据，并对列进行计算
    df.filter(df("age")>18).show()// 根据某一列的值进行过滤
    df.groupBy("age").count().show()// 根据某一列进行分组，然后进行聚合
    df.createOrReplaceTempView("student")
    val stuDF = spark.sql("select * from student")
    stuDF.show()
  }

}

students.json文件的内容如下：

{"name":"Leo", "score":85, "age": 25}
{"name":"Marry", "score":99, "age":18}
{"name":"Jack", "score":74, "age":18}

yiluohan0307

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录