一、创建RDD
1.从内存中创建RDD
(1)parallelize()方法
(2)makeRDD()方法
二、从外部存储系统中读取数据创建RDD
通过SparkContext对象的textFile()方法读取数据集。
使用map()方法转换数据
使用sortBy()方法进行排序
使用collect()方法查询数据
使用flatMap()方法转换数据
使用take()方法查询某几个值
使用union()方法合并多个RDD
使用filter()方法进行过滤
使用distinct()方法进行去重
使用简单的集合操作
intersection()方法
subtract()方法
cartesian()方法
创建键值对RDD
使用键值对的keys方法和values方法
使用键值对RDD的reduceByKey()方法
使用键值对RDD的groupByKey()方法
连接两个RDD
join()方法
rightOuterJoin()方法
leftOuterJoin()方法
fullOuterJoin()方法
使用zip()方法组合两个RDD
使用combineByKey()方法合并相同键的值
使用lookup()方法查找指定键的值