弹性分布式数据集(RDD)
Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可并行操作的元素的容错集合。
创建RDD的方式有两种:
1.并行化驱动程序中的现有集合
2.引用外部存储系统(例如共享文件系统、HDFS、HBase、或Hadoop InputFormat的任何数据源)中的数据集
1.并行集合
有两种方法创建并行集合:parallelize、makeRDD
用scala语言创建
def main(args: Array[String]): Unit = {
val sc = new SparkContext(new SparkConf().setAppName("Test3").setMaster("local[*]"))
val data = Array(1,2,3,4,5)
//第一种方式创建RDD
val dataRDD: RDD[Int] = sc.parallelize(data)
//第二种方式创建RDD