1.map操作
将原本集合中所有数字通过map操作乘以10,然后输出
scala> val rddData = sc.parallelize(1 to 10)
rddData: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
scala> val rddData2 = rddData.map(_ * 10)
rddData2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at <console>:26
scala> rddData2.collect
res0: Array[Int] = Array(10, 20, 30, 40, 50, 60, 70, 80, 90, 100)
说明:
sc.parallelize(1 to 10):创建一个由数字1-10组成的RDD。
org.apache.spark.rdd.RDD[Int]:显示第一行代码执行结果–创建了一个由Int类型元素组成的RDD。
rddData.map(_ * 10):调用map方法,向map方法中传入参数“_ * 10”。参数代码的含义是:将原始RDD中的数字依次乘10,并生成新的RDD。
rddData2.collect:执行collect行动操作,用于查看结果。
Array[Int] = Array(10, 20, 30, 40, 50, 60, 70, 80, 90, 100):可以看到全部结果都乘了10。