spark之Dataset

最新推荐文章于 2022-09-01 20:54:00 发布

天一涯

最新推荐文章于 2022-09-01 20:54:00 发布

阅读量486

点赞数

分类专栏：大数据学习之路文章标签： Dataset

本文链接：https://blog.csdn.net/yuan1164345228/article/details/108606543

版权

大数据学习之路专栏收录该内容

18 篇文章 2 订阅

订阅专栏

@InterfaceStability.Stable
public class Dataset<T>
extends Object
implements scala.Serializabl

1）Dataset是面向特定领域的强类型集合

2）每个Dataset具有一个称为DataFrame的无类型视图，该视图是类型为Row的Dataset，也就是说DataFrame是Dataset的特例。

3）与RDD类似，DataSet包含Transformation和Action两种操作。

4）两种创建Dataset的方式：

使用SparkSession的read方法：

val people = spark.read.parquet("...").as[Person]  // Scala
Dataset<Person> people = spark.read().parquet("...").as(Encoders.bean(Person.class)); // Java

通过已有的Dataset转换：

val names = people.map(_.name)  // in Scala; names is a Dataset[String]
Dataset<String> names = people.map((Person p) -> p.name, Encoders.STRING)); // in Java 8

5）Dataset、RDD、DataFrame之间的关系：