我对DataFrame的理解(Spark)

本文介绍了Spark DataFrame,它是分布式数据集,类似关系数据库的表。DataFrame支持懒执行,利用优化技术如predicate push-downs和bytecode generation。可以从文件、RDD或Hive创建DataFrame,并提供了丰富的API。通过SQLContext,可以进行SQL查询。文章讨论了如何从文件和RDD创建DataFrame,包括使用反射和编程指定模式的方法。
摘要由CSDN通过智能技术生成

以下链接为Spark –SQL中的dataFrame API
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame
dataframe 官方说明:
http://spark.apache.org/docs/latest/sql-programming-guide.html
参考文档:http://ju.outofmemory.cn/entry/128891
在Spark中,DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化)。DataFrames可以由结构化数据文件转换而来,也可以从Hive中的表得来,以及可以转换自外部数据库或现有的RDD。

类似于RDD,DataFrame同样使用了lazy的方式。也就是说,只有动作真正发生时(如显示结果,保存输出),计算才会进行。从而,通过一些技术,比如predicate push-downs和bytecode generation,执行过程可以进行适当的优化。同时,所有的DataFrames也会自动的在集群上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值