Spark的常用RDD

本文详细介绍了Spark中的RDD操作,包括转换算子如cache、filter、map等,非转换算子如count、collect、saveAsTextFile等,以及特殊的DoubleRDD和tuple类型RDD的操作,如histogram、reduceByKey等。这些操作对于理解和使用Spark进行大数据处理至关重要。
摘要由CSDN通过智能技术生成

1)转换算子--transformations

      ++  合并两个RDD。生产一个新的RDD

      cache 缓存rdd,减少之后使用相同逻辑rdd的计算量,只有一个级别 Memery

      cartesian  笛卡尔集

      coalesce  重新设置分区操作,注意,有两个参数,一个分区个数,是否shuffle。

      collect  根据一个偏函数返回一个符合偏函数的结果集RDD

      distinct(2种构造)

      filter  过滤,根据里面的规则返回一个过滤过后的rdd

      flatMap  --1对多,可以理解成讲原来的数据集拍扁了

      glom  --将rdd分区元素变成一个数组元素

      groupBy(3种构造)  --根据自己定义的规则来划分组

      intersection(3种构造)--返回两个rdd中相同的数据集合

      keyBy --

      map --

      mapPartitions--

      mapPartitionsWithIndex  --多了个分区索引

      persist  --也是缓存只是可以设置缓存级别

      pipe(3种构造)

      repartition

      sample  --抽样

      setName

      sortBy --根据规则来定义排序。

      subtract(3个构造) --》返回rdd2中没有的rdd1元素,可以理解成左关联后去掉交集

      toJavaRDD

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值