1、转换操作:
任意数据类型的RDD.
map():接收一个函数,并将函数用于RDD中的每一个元素,将函数返回结果作为RDD中对应的元素值。返回类型不需要和输入类型一样。
如:url集合中每个对应url的主机名输出。
filter():接收一个函数,并将RDD中满足该函数的元素放入新的RDD中。如输入string,输出double类型。
flatmap():每个输入元素,生成多个输出元素。
返回一个返回值序列的迭代器,不是由迭代器组成而是一个包含各个迭代器可访问的所有元素的RDD.如:把输入的字符串切分为单词。
2、伪集合操作:
要求操作的RDD有相同的数据类型。
union返回一个包含两个RDD中所有元素的RDD,如果输入的RDD中有重复数据,spark的union()操作也会包含这些重复的数据。distict()实现相同的效果。
intersection()只返回两个RDD中都有的元素。也会去掉所有重复的元素(单个RDD中重复的元素也会一起移除),但性能相比union差,需要通过网络混洗数据发现共有元素。
需要移除数据。substract(other)接收另一个RDD作为一个参数,返回一个由只存在第一个RDD中而不存在在第二个RDD中所有元素组成的RDD.也需要数据混洗。
返回两个RDD的笛卡尔积。cartesian(other)返回所有kennel的(a,b)对。a、b来自两个RDD.
如:求用户相似度,求一个RDD与自身的笛卡尔积。
3、行动操作
reduce():操作两个相同数据类型的RDD,并返回同样类型的新元素。
如函数+,对RDD进行累加,计算出所有元素的总和、元素个数、以及其他类型