scala算子

本文介绍了Scala中常用的算子,包括Map和flatMap的区别,强调flatMap作用于单条数据。接着讲解了reduce与reduceByKey的聚合操作,reduceByKey直接调用聚合方法。然后讨论了sortBy和sortByKey的排序功能,以及collect操作的使用场景和潜在问题,建议在分布式环境中避免频繁使用collect。最后提到了SparkStreaming作为Spark对实时数据流处理的拓展,提供了Dstream抽象方法。
摘要由CSDN通过智能技术生成

1、Map和flatMap
Map是将每一个数据拿出来执行一遍其传入的function,
flatMap是将一条数据数据打散执行方法
(注意,每一个数据和每一条数据是有区别的,hello you 是一条数据,其中的hello和you是每一个数据)
例:

val pairs: DStream[(String, Int)] = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

注意:flatMap作用的是一条一条的数据,才去执行,不作用于键值对

2、reduce和reduceByKey
reduce需要自定义聚合方法,
reduceByKey可以直接调用聚合方法

reduce的聚合实现代码后期更新

3、sortBy和sortByKey
sortBy是按照某一个参数的值去排序,
sortByKey是按照key去排序,

代码后期更

4、collect:是action操作里的一个算子(算子就是映射,就是关系,就是变换),这个方法可以将RDD类型的数据转化为数组。同时会从远程集群拉取数据到driver端(驱动端)

弊端:RDD的惰性机制,真正的计算发生在Action操作,那么一次collect就会导致一次shuffle,而一次shuffle调度一次stage,然而一次stage包含很多个已分解的Task,这样会导致程序运行时间大大增加,属于比较耗时的操作,即使在local模式下也同样耗时
从环境上来讲,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值