以下链接为Spark –SQL中的dataFrame API
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame
dataframe 官方说明:
http://spark.apache.org/docs/latest/sql-programming-guide.html
参考文档:http://ju.outofmemory.cn/entry/128891
在Spark中,DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化)。DataFrames可以由结构化数据文件转换而来,也可以从Hive中的表得来,以及可以转换自外部数据库或现有的RDD。
类似于RDD,DataFrame同样使用了lazy的方式。也就是说,只有动作真正发生时(如显示结果,保存输出),计算才会进行。从而,通过一些技术,比如predicate push-downs和bytecode generation,执行过程可以进行适当的优化。同时,所有的DataFrames也会自动的在集群上