Spark的RDD转换算子-value型-filter、sample、distinct

最新推荐文章于 2023-05-17 15:40:14 发布

牧码文

最新推荐文章于 2023-05-17 15:40:14 发布

阅读量275

点赞数 1

分类专栏： Spark 文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_46429290/article/details/120003185

版权

Spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Spark的RDD转换算子-value型-filter、sample、distinct

一、filter

函数签名

def filter(f: T => Boolean): RDD[T]

将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜。

val rdd = sparkContext.makeRDD(List( 
    1,2,3,4 
),1) 
//将偶数过滤得到
val filterRDD = rdd.filter(_%2 == 0)

二、sample

函数签名

def sample( 
  withReplacement: Boolean, 
  fraction: Double, 
  seed: Long = Utils.random.nextLong): RDD[T]

按指定的规则从数据集中抽取数据，sample需要传入三个参数：

第一个参数：是否又放回的抽取，true表示放回，参照泊松算法；false表示不放回，参照伯努利算法

第二个参数：如是不放回，数据源中的数据被抽取的概率，设计基准值的概念

第三个参数：抽取数据时随机算法的种子，不传递就是系统时间

val dataRDD = sparkContext.makeRDD(List( 
    1,2,3,4 
),1) 
// 抽取数据不放回（伯努利算法） 
// 伯努利算法：又叫 0、1 分布。例如扔硬币，要么正面，要么反面。 
// 具体实现：根据种子和随机算法算出一个数和第二个参数设置几率比较，小于第二个参数要，大于不要 
// 第一个参数：抽取的数据是否放回，false：不放回 
// 第二个参数：抽取的几率，范围在[0,1]之间,0：全不取；1：全取； 
// 第三个参数：随机数种子 
val dataRDD1 = dataRDD.sample(false, 0.5) 
// 抽取数据放回（泊松算法） 
// 第一个参数：抽取的数据是否放回，true：放回；false：不放回 
// 第二个参数：重复数据的几率，范围大于等于 0.表示每一个元素被期望抽取到的次数 
// 第三个参数：随机数种子 
val dataRDD2 = dataRDD.sample(true, 2)

三、distinct

函数签名

def distinct()(implicit ord: Ordering[T] = null): RDD[T] 
def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

将数据集中重复的数据去重

去重的原理和java的不同，java采用的是set，而distinct采用的是：

map(x => (x, null)).reduceByKey(
	(x, _) => x,
	numPartitions
	).map(_._1)

其实就是根据reduceByKey的方法，如果重复，放到后面，但是最后返回的只是第一个

val dataRDD = sparkContext.makeRDD(List( 
    1,2,3,4,1,2,3,4
),1) 
val dataRDD1 = dataRDD.distinct() 
 
val dataRDD2 = dataRDD.distinct(2)

牧码文

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark的RDD转换算子-value型-filter、sample、distinct

Spark的RDD转换算子-value型-filter、sample、distinct一、filter函数签名def filter(f: T => Boolean): RDD[T] 将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜。val rdd = sparkContext.makeRDD(List( 1,2,3,4 ),1) //将偶数过滤得到val
复制链接

扫一扫