我对DataFrame的理解（Spark）

最新推荐文章于 2024-07-07 07:15:00 发布

BYRsysu

最新推荐文章于 2024-07-07 07:15:00 发布

阅读量718

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/yanran1991326/article/details/46540613

版权

本文介绍了Spark DataFrame，它是分布式数据集，类似关系数据库的表。DataFrame支持懒执行，利用优化技术如predicate push-downs和bytecode generation。可以从文件、RDD或Hive创建DataFrame，并提供了丰富的API。通过SQLContext，可以进行SQL查询。文章讨论了如何从文件和RDD创建DataFrame，包括使用反射和编程指定模式的方法。

摘要由CSDN通过智能技术生成

以下链接为Spark –SQL中的dataFrame API
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame
dataframe 官方说明：
http://spark.apache.org/docs/latest/sql-programming-guide.html
参考文档：http://ju.outofmemory.cn/entry/128891
在Spark中，DataFrame是一个以命名列方式组织的分布式数据集，等同于关系型数据库中的一个表，也相当于R/Python中的data frames（但是进行了更多的优化）。DataFrames可以由结构化数据文件转换而来，也可以从Hive中的表得来，以及可以转换自外部数据库或现有的RDD。

类似于RDD，DataFrame同样使用了lazy的方式。也就是说，只有动作真正发生时（如显示结果，保存输出），计算才会进行。从而，通过一些技术，比如predicate push-downs和bytecode generation，执行过程可以进行适当的优化。同时，所有的DataFrames也会自动的在集群上