Spark的RDD转换算子-value型-filter、sample、distinct

Spark的RDD转换算子-value型-filter、sample、distinct

一、filter

函数签名

def filter(f: T => Boolean): RDD[T] 

将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。 当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出现数据倾斜。

val rdd = sparkContext.makeRDD(List( 
    1,2,3,4 
),1) 
//将偶数过滤得到
val filterRDD = rdd.filter(_%2 == 0) 

二、sample

函数签名

def sample( 
  withReplacement: Boolean, 
  fraction: Double, 
  seed: Long = Utils.random.nextLong): RDD[T] 

按指定的规则从数据集中抽取数据,sample需要传入三个参数:

第一个参数:是否又放回的抽取,true表示放回,参照泊松算法;false表示不放回,参照伯努利算法

第二个参数:如是不放回,数据源中的数据被抽取的概率,设计基准值的概念

第三个参数:抽取数据时随机算法的种子,不传递就是系统时间

val dataRDD = sparkContext.makeRDD(List( 
    1,2,3,4 
),1) 
// 抽取数据不放回(伯努利算法) 
// 伯努利算法:又叫 0、1 分布。例如扔硬币,要么正面,要么反面。 
// 具体实现:根据种子和随机算法算出一个数和第二个参数设置几率比较,小于第二个参数要,大于不要 
// 第一个参数:抽取的数据是否放回,false:不放回 
// 第二个参数:抽取的几率,范围在[0,1]之间,0:全不取;1:全取; 
// 第三个参数:随机数种子 
val dataRDD1 = dataRDD.sample(false, 0.5) 
// 抽取数据放回(泊松算法) 
// 第一个参数:抽取的数据是否放回,true:放回;false:不放回 
// 第二个参数:重复数据的几率,范围大于等于 0.表示每一个元素被期望抽取到的次数 
// 第三个参数:随机数种子 
val dataRDD2 = dataRDD.sample(true, 2) 

三、distinct

函数签名

def distinct()(implicit ord: Ordering[T] = null): RDD[T] 
def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] 

将数据集中重复的数据去重

去重的原理和java的不同,java采用的是set,而distinct采用的是:

map(x => (x, null)).reduceByKey(
	(x, _) => x,
	numPartitions
	).map(_._1)

其实就是根据reduceByKey的方法,如果重复,放到后面,但是最后返回的只是第一个

val dataRDD = sparkContext.makeRDD(List( 
    1,2,3,4,1,2,3,4
),1) 
val dataRDD1 = dataRDD.distinct() 
 
val dataRDD2 = dataRDD.distinct(2) 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

牧码文

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值