[Spark2.0]Spark SQL, DataFrames 和Datasets指南


        Spark SQLSpark提供的针对结构化数据处理的模块。不同于基本的Spark RDD APISparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQLDataset API。计算结果的时候使用相同的执行




        Spark SQL的一种用法是执行SQL查询。Spark SQL也可以用于从已安装的Hive中读取数据。更多的关于此特性的配置,请参考Hive Tables。当从内部其他编程语言执行SQL,结果将以Dataset/DataFrame形式返回。你也可以通过command-line或者JDBC/ODBCSQL接口进行交互。



        Dataset是分布式数据集合。DatasetSpark1.6新增的接口,用以提供RDDs(强类型,有使用强大的lambda函数的能力)的优点和Spark SQL的经优化的执行引擎的优点。Dataset可以从JVM对象进行构造并通过转换函数(如mapflatmapfilter等)进行操作。DatasetAPI支持ScalaJavaPython不支持Dataset API。但因为Python本身的动态性,DatasetAPI的许多优点都已经可用(比如,你可以通过名字很自然的访问一行的某一个字段,如row.columnName),R的情况与此类似。

        DataFrameDataset组织成命名列的形式。它在概念上相当于关系型数据库中的表,或者R/Python中的数据帧,但是在底层进行了更多的优化。DataFrames可以从多种数据源创建,例如:结构化数据文件、Hive中的表、外部数据库或者已存在的RDDsDataFrame API支持ScalaJavaPythonR。在ScalaJavaDataFrame其实是DatasetRowS的形式的表示。在Scala API中,DataFrame仅仅是Dataset[Row]的别名。但在Java中,使用者需要使用Dataset<Row>来表示一个DataFrame

       在本文档中,我们会经常将Scala/Java DatasetRowS作为DataFrame的参考。







        SparkSessionSpark2.0开始提供的内建了对Hive特性的支持,包括使用HiveQL写查询语句、调用Hive UDFs、从Hive表读取数据的能力。你不需要事先部署Hive就能使用这些特性。






无类型的Dataset操作(aka DataFrame Operations




       除了简单的列引用和表达式外,Dataset同时有丰富的函数库,包括字符串操作、日期算法、常用数学操作等。完整的列表可参考DataFrame Function Reference




        Spark SQL支持两种将已存在的RDD转化为Dataset的方法。第一种方法使用反射推断包含特定类型对象的RDD的结构。这种基于反射的方法代码更加简洁,并且当你在写Spark程序的时候已经知道RDD的结构的情况下效果很好。




        Spark SQLScala接口支持自动的将一个包含case classRDD转换为DataFrame。这个case class定义了表结构。Caseclass的参数名是通过反射机制读取,然后变成列名。Caseclass可以嵌套或者包含像SeqArray之类的复杂类型。这个RDD可以隐式的转换为一个DataFrame,然后被注册为一张表。这个表可以随后被SQLstatement使用。

       可以在Spark仓库的"examples/src/main/scala/org/apache/spark/examples/sql/SparkSQLExample.scala"in the Spark repo. 找到完整的代码。



       case class不能被事先定义(比如记录的结构被编码为字符串,或者对不同的用户,文本数据集被不同的解析并进行字段投影),DataFrame可以通过以下3个步骤实现编程创建:

  1. 从原始RDD创建RowS形式的RDD
  2. StructType创建匹配步骤1RowS形式的RDD的模式
  3. 通过SparkSession提供的createDataFrame方法将模式应用于RowS形式的RDD



        Spark SQL通过DataFrame接口,可以支持对多种数据源的操作。DataFrame可以使用关系转换来进行操作,而且可以用来创建临时视图。将DataFrame注册为临时视图可以允许你在数据上运行SQL查询语句。本节讲解使用SparkData Source加载数据和保存数据的通用方法,然后





计算机生成了可选文字:|0val usersDF spark . read . 1 oad("exampl es/src/mai n/ resources/users . parquet") usersDF . sel ect("name " "favori te_col or ") . wri te . save ("namesAndFa«01 ors . parqu et")





Ignore模式意味着当保存一个DataFrame到数据源时,如果数据已经存在,保存操作将不会保存DataFrame的内容,并且不会改变原数据。这与SQL中的CREATE TABLE IF NOT EXISTS相似。







       Parquet是一种被很多其他数据处理系统支持的列式文件。Spark SQL提供了可以自动保存原始数据模式的对Parquet文件读取和写入的操作。当写入一个Parquet文件时,因为兼容性原因,所有的列都会自动转换为nullable(可为空的)。




       使用SparkSession.read.parquet或者SparkSession.read.load加载path/to/table后,Spark SQL能够自动的从路径中提取分区信息。返回的DataFrame的模式结构是:

  1. 在读取Parquet文件时(就像下面的例子)设置数据源操作mergeSchematrue
  2. 设置全局SQL选项spark.sql.parquet.mergeSchematrue
       当读写Hive元存储Parquet表时,为了更好的性能,SparkSQL将试图使用它自己支持的Parquet代替Hive SerDe。这种行为可以通过spark.sql.hive.convertMetastoreParquet进行配置,默认已经开启。


Hive/Parquet schema调节


  1. Hive是类型敏感的,而Parquet并不是
  2. Hive中所有列都是非空的,而Parquet中非空是很重要的特性。


       因为这个原因,当我们需要将Hive元存储转换为Spark SQL Parquet表中的Parquet表时,我们需要调节Hive元存储的schemaParquetschema。调节规则如下:

  1. 不管是否可为空值,两种schema中具有相同名字的字段必须具有相同的数据类型。这种调节字段应该有与Parquet一方相同的数据类型,因此可为空值的特性很重要。
  2. 调节的schema准确的包含在Hive元存储schema中定义的字段。
    • 任何只在Parquet schema中出现的字段都会在调节schema中被丢弃
    • 任何只出现在Hive元存储schema中的字段都会在调节schema中被添加为可为空的字段



       为了更好的性能,Spark SQL会缓存Parquet元数据。当Hive元存储Parquet表转换操作可用时,这些被转换的表的元数据同样被缓存。如果这些表被Hive或者外部工具更新,你需要手动更新元数据以保持其一致性。

        Parquet的配置可以使用SparkSession中的setConf方法进行,或者使用SQL执行SET key=value命令。

        Spark SQL可以自动推断JSON数据集的schema并且加载为Dataset[Row]。可以对String类型的RDD或者JSON文件使用SparkSession.read.json()来实现这种转换。


        Spark SQL同样支持从Apache Hive中读写数据。但是,自从Hive有大量依赖之后,这些依赖就不包括在Spark发布版中了。如果Hive的依赖可以在环境变量中找到,Spark将自动加载它们。注意这些Hive依赖项同样必须在每个worker节点上存在,因为他们需要访问Hive序列化和反序列化库以便可以访问Hive中存储的数据。

       配置可以在conf/目录中的hive-site.xml, core-site.xml(安全配置),hdfs-site.xml(HDFS配置)这几个文件中进行配置。


        Spark SQLHive支持的最重要的特点之一是与Hive元存储的交互,这使得SparkSQL可以访问Hive表的元数据。从Spark1.4.0开始,可以使用一个Spark SQL的二进制构建来查询不同版本的Hive元存储。Spark SQL在内部编译Hive1.2.1并且使用这些classes用于内部执行(序列化反序列化,UDFsUDAFs等)


       Spark SQL同样包括可以使用JDBC从去他数据库读取数据的数据源。此功能优先使用JdbcRDD.这是因为返回的结果作为一个DataFrame并且可以轻松地使用Spark SQL处理或者与其他数据源进行连接。使用Java或者Python可以更容易的使用JDBC数据源因为它们不需要用户提供ClassTag。(注意这与Spark SQLJDBC服务器可以允许其他应用使用Spark SQL执行查询语句不同)

       在开始之前你需要将你指定的数据库的JDBC driver包含在Spark的环境变量中。例如,为了从Spark Shell连接到postgres,你需要执行以下命令:


       远程数据库的表可以被加载为DataFrame或者使用Data Sources API加载为Spark SQL临时表。支持以下选项:

  • JDBC driver类必须在客户端和所有执行器上对原始类加载器可见。这是因为JavaDriverManager类在用户打开连接时,要进行安全检查,检查其中的结果已经忽略了所有的对原始类加载器不可见的部分。一个方便的方法是更改所有worker节点的compute_classpath.sh使其包含你的driverJAR
  • 一些数据库,比如H2,要求将所有的名字转换为大写,你需要在Spark SQL中使用大写。







        Spark SQL可以通过调用 spark.cacheTable("tableName")或者dataFrame.cache()来将表以列式形式缓存在内存中。然后Spark SQL可以只扫描需要的列并且可以自动调节压缩以最小内存使用率和GC压力。你可以调用spark.uncacheTable("tableName")来将表从内存中删除。

       可以在SparkSession上使用setConf方法来配置内存缓存,或者使用SQL执行SET key=value命令。

       Spark SQL同样可以使用JDBC/ODBC或者命令行接口来作为一个分布式查询引擎。在这种模式中,终端用户或者应用可以通过执行SQL查询语句直接与Spark SQL进行交互,不需要写任何代码。


运行Thrift JDBC/ODBC服务

        Thrift JDBC/ODBC服务实现了与Hive1.2.1的一致性。你可以使用任意来自Spark或者Hive1.2.1beeline script来测试JDBC服务。


       这个脚本接受所有bin/spark-submit的命令行选项,再加上可以执行Hive属性的 --hiveconf选项。你可以运行./sbin/start-thriftserver.sh--help来显示所有可用的选项的完整列表。默认情况下,此服务在localhost:10000进行监听。你可以通过配置环境变量来改变此运行状态,比如:

       现在你可以使用beeline来测试Thrift JDBC/ODBC服务:



        beeline将会询问用户名和密码。在非安全模式,可以简单地在你的机器上输入用户名和空白的密码。在安全模式下,请遵照beeline documentation中给出的说明。

       Hive的配置是在conf/目录下的 hive-site.xml,core-site.xml和hdfs-site.xml文件中进行配置的。

       你也可以使用来自Hivebeeline script

Thrift JDBC服务同样支持在HTTP传输上发送 thrift RPC消息。在系统属性或者在conf/目录中的hive-site.xml文件中进行以下设置来将模式设为HTTP模式:

运行Spark SQL命令行界面

        Spark SQL CLI是一个在本地模式下运行Hive元存储服务和执行从命令行输入的查询语句的便捷的工具。注意Spark SQL CLIThriftJDBC服务不能通信。

你可以在Spark目录中运行以下命令来开始Spark SQL CLI

        Hive的配置是在conf/目录下的hive-site.xml, core-site.xml和hdfs-site.xml文件中进行配置的。你可以运行./sbin/start-thriftserver.sh--help来显示所有可用的选项的完整列表。





