一、RDD创建的两种方式
1、外部数据源
Scala:
val file = sc.textFile("hdfs://hadoop:8020/words.txt",partitions )//partitions分区参数,不写,是默认的分区个数,可手动指定
Java:
JavaRDD<String> lines = sc.textFile("hdfs://hadoop:8020/words.txt");
2、驱动程序里分发驱动器程序中的对象集合(比如list或者set或者Array)
Scala:
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data,partitions )//partitions分区参数,不写,是默认的分区个数,可手动指定
等价于:
val file=sc.parallelize(List(1,2,34,5))
Java:
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);