Spark中所有组件的数据格式
- SparkCore的数据格式:RDD
- SparkStreaming的数据格式:DStream,底层是RDD
- SparkSQL的数据格式:DataFrame和DataSet,底层是RDD
DataFrame和DataSet详解
DataFrame
DataFrame = RDD - 泛型 + Schema约束(指定了字段名和类型) + SQL操作 + 优化
DataFrame 就是在RDD的基础上做了进一步的封装,支持SQL操作!
总结
DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格,DataFrame表示的二维表每一列都带名称和类型。
DataSet
DataSet = DataFrame + 泛型
DataSet = RDD + Schema约束(指定了字段名和类型) + SQL + 优化
DataSet 就是在RDD的基础之上做了进一步的封装,支持SQL操作!
DataSet 就是一个分布式表!
注:DataSet就是一个加了泛型的DataFrame,但DataFrame不是不用了,而是在其他无泛型的语言中使用。