关于spark的RDD:
关于RDD,可以查看官方文档,可以看作者的论文,也可以看spark源码中关于RDD的注释。
按Ctrl+N快捷键,搜索RDD,进入源码,如果没有关联源码,在IDEA中右上角会有一个提示:"Attach Sources".
在IDEA中关联spark的源码,首先解压下载好的spark源码包(spark-1.6.2.tgz),然后在IDEA中选择右上角的Attach Sources,在弹出的窗口中选择自己解压后的spark的源码目录即可。
RDD:一个弹性、可复原的、分布式的数据集。它是spark的一个最基本的抽象。不可变的(一旦创建好了,在计算的时候是不可变,对它进行各种操作都只能生成新的RDD),被分区的(一个分区只能属于一台机器,但是一台机器上可能有很多很多的分区),的集合,它可以被并行的计算。
只有key-value格式的数据才可以使用groupByKey或者join。
RDD的5个特点:
数据是存放在多个分区里面的。
(1)RDD中有很多的分区,分区List是有序的(意味着如果你的数据很少,而分区很多,
那么就可能有的分区中有数据,有的可能没有数据);
(2)一个函数会作用到每一台机器上的每一个分区上面(split);
(3)RDD和RDD之间是存在依赖关系的
关于RDD,可以查看官方文档,可以看作者的论文,也可以看spark源码中关于RDD的注释。
按Ctrl+N快捷键,搜索RDD,进入源码,如果没有关联源码,在IDEA中右上角会有一个提示:"Attach Sources".
在IDEA中关联spark的源码,首先解压下载好的spark源码包(spark-1.6.2.tgz),然后在IDEA中选择右上角的Attach Sources,在弹出的窗口中选择自己解压后的spark的源码目录即可。
RDD:一个弹性、可复原的、分布式的数据集。它是spark的一个最基本的抽象。不可变的(一旦创建好了,在计算的时候是不可变,对它进行各种操作都只能生成新的RDD),被分区的(一个分区只能属于一台机器,但是一台机器上可能有很多很多的分区),的集合,它可以被并行的计算。
只有key-value格式的数据才可以使用groupByKey或者join。
RDD的5个特点:
数据是存放在多个分区里面的。
(1)RDD中有很多的分区,分区List是有序的(意味着如果你的数据很少,而分区很多,
那么就可能有的分区中有数据,有的可能没有数据);
(2)一个函数会作用到每一台机器上的每一个分区上面(split);
(3)RDD和RDD之间是存在依赖关系的