什么是SparkSQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!
什么是DataFrame
DataFrame和RDD类似,他也是分布式数据容器,它提供了给我们写sql的接口。那为什么DataFrame可以写sql而RDD则不行呢?其实这和DataFrame的特性有关,RDD只描述了数据的类型而DataFrame描述了数据的结构。什么是数据的结构呢?其实就是像数据库的表格一样。
上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。
什么是DataSet
上面说到RDD是只有类型没有结构,而DataFrame只有结构没有类型,那么DataSet就是既有结构又有类型的数据抽象。Data