spark大数据分析（二）

最新推荐文章于 2021-01-13 03:38:27 发布

zhouxiaowu_bigdata

最新推荐文章于 2021-01-13 03:38:27 发布

阅读量258

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouxiaowu_bigdata/article/details/53013146

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

## 常见的转化操作和行动操作##

map
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD；RDD
之间的元素是一对一的关系。

val rdd1 = sc.parallelize(1 to 9,3)
val rdd2 = rdd1.map(x=>x*2)
rdd2.collect

filter
filter是对RDD元素进行过滤；返回一个新的数据集，有经过func函数后返回值为true的原元素组成。

val rdd3 = rdd2.filter(x=>x>10)
rdd3.collect

flatMap
flatMap类似与map，但是每一个输入元素，会被映射为0到多个输出元素，RDD之间的元素是一对多的关系。

scala实现切分单词

val lines = sc.parallelize(List("hello spark","hi java"))
val words =lines.flatMap(line=>line.split(" "))

集合操作
union（）：并集
intersection（）：交集
subtract（）：差集
cartesian（）：笛卡尔集
distinct（）：去重
sample
随机采样

val rdd = sc.parallelize(1 to 10000,3)
a.sample(false,0.1,0).count

false 不放回抽样，0.1表示抽样比例，0表示随机种子

zhouxiaowu_bigdata

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark大数据分析（二）

## 常见的转化操作和行动操作##map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD；RDD 之间的元素是一对一的关系。val rdd1 = sc.parallelize(1 to 9,3)val rdd2 = rdd1.map(x=>x*2)rdd2.collectfilter filter是对RDD元素进行过滤；返回一个新的数据集，有经过func函数后返
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。