Spark Transformation

Transformations——转换

从之前的RDD构建一个新的RDD, 像map() 和filter()

 

逐元素Transformation

map()

map接收函数, 把函数应用到RDD的每一个元素,返回新的RDD

例子:

val lines = sc.parallelize(Array(1,2,3,4,5),5)
lines.foreach(println)
val lines2 = lines.map(x => x * 2)
lines2.foreach(println)

 

Filter()

filter接收函数,返回只包含满足filter()函数的元素的新RDD

例子

val lines = sc.parallelize(Array(1,2,3,4,5),5)
val lines3 = lines.filter(x => {x % 2 == 0})
lines3.foreach(println)

 

flatMap()

flatMap() 对每个输入元素, 输出多个输出元素

flat压扁的意思, 将RDD中元素压扁后返回一个新的RDD,简单理解 将RDD的每个元素的序列拆分

例子

val input = sc.parallelize(Array("hello world", "hello java", "hello scala"))
val words = input.flatMap(line => {line.split(" ")})
words.foreach(println)

 

集合运算:

     RDDs支持数据集合的计算, 例如并集、交集

去重:

val rdd1 = sc.parallelize(Array(1,1,2,3))
rdd1.distinct().foreach(println)

并集、交集、差集:

rdd1.union(rdd2).foreach(println)
rdd1.intersection(rdd2).foreach(println)
rdd1.subtract(rdd2).foreach(println)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值