1、概述(Overview)
Spark SQL是Spark的一个组件,用于处理结构化数据。
1.1 SQL
Spark SQL除了用来执行SQL查询外,还可以读取Hive表数据。当使用编程语言运行sql时,结果会以数据集或数据帧(DataSet/DataFrame)的形式返回,当然,你也可以通过命令行或者JDBC/ODBC执行SQL。
1.2 数据集与数据帧(DataSet/DataFrame)
Dataset是数据的分布式集合。DataSet是Spark 1.6引入的一个新接口,该接口融合了Spark SQL的最优化执行引擎特性和RDD的优点(强类型、更强大的lambda表达式)。