1、Spark SQL概念
Spark SQL是Spark为结构化数据处理而引入的编程模块,提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。
2、Spark SQL组成
1)DataFrame
是一个分布式数据集合,被组织成命名列,相当于具有良好优化技术的关系表。
2)Core
处理数据的输入输出,从不同的数据源获取数据(RDD、Parquet、Json等),将查询结果输出成schemaRDD。
3)Catalyst
处理查询语句的整个处理过程,包括解析、绑定、优化、物理计划等。
4)Hive
处理Hive数据。
5)Hive-ThriftServer
提供CLI和JDBC/ODBC接口。