RDD的map和flatMap
最近约看约有些困惑这两个方法了,于是仔细查了一下,总结了以下的区别和联系
区别
- map() 接收一个函数,把这个函数用于 RDD 中的每个元素,将函数的返回结果作为RDD 中对应元素的结果;
- flatMap()对RDD每个输入元素生成多个输出元素,我们提供给 flatMap() 的函数被分别应用到了输入 RDD 的每个元素上。
这样看起来还是比较复杂,接下来举个非常简单的例子就非常明确了
from pyspark import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext.getOrCreate()