rdd:
初代rdd:
存储的是真实数据的分区信息,还有是针对单个分区的读取方法。血统的顶层。
子代rdd:
存储初代rdd到底做了什么才会产生自己,初代rdd的引用,血统的下层。
只是记录数据,什么时候执行呢
.collect()
这是action,在执行任务的时候才会从上往下读,开始真正执行操作。之前只是记录。
不是存的数据,是存的分区。
transform一定返回rdd,
rdd:
初代rdd:
存储的是真实数据的分区信息,还有是针对单个分区的读取方法。血统的顶层。
子代rdd:
存储初代rdd到底做了什么才会产生自己,初代rdd的引用,血统的下层。
只是记录数据,什么时候执行呢
.collect()
这是action,在执行任务的时候才会从上往下读,开始真正执行操作。之前只是记录。
不是存的数据,是存的分区。
transform一定返回rdd,