1 RDD常用转换操作
1 parallelize()本地列表转换rdd
sc.parallelize('[1,2,3,4,5]')
2 map
作用:map
的作用是将原始RDD的每个元素通过一个指定的函数映射为新的元素,形成一个新的RDD!map里面就是放函数的,冒号后面可以是新的元组(x,1)也可以是加上输入值的公式
rdd.map(lambda x:x*2)
3 filter
filter内部需要导入一个函数(lambda),遍历所有元素从而返回新的数据集
4 flatMap-分割作用
flatmap相当于先map后flat,如下图示~
5 map+reduceByKey实现单词计数
同4结合 可以实现从文件读取的flatMap->map->reduceByKey
6 groupByKey分组
groupByKey内部无需传入参数!
7 总结
2 RDD行动操作
1 reduce计算
记住parallelize是将本地列表变成rdd的方法