Spark API 之 map、mapPartitions

最新推荐文章于 2023-05-04 11:56:48 发布

奋斗吧_攻城狮

最新推荐文章于 2023-05-04 11:56:48 发布

阅读量464

点赞数

分类专栏： Spark

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

rdd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。

两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。

假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函数会被调用10次；而使用mapPartitions方法的话，其输入函数会只会被调用3次，每个分区调用1次。

//生成10个元素3个分区的rdd a，元素值为1~10的整数（1 2 3 4 5 6 7 8 9 10），sc为SparkContext对象

val a = sc.parallelize(1 to 10, 3)

//定义两个输入变换函数，它们的作用均是将rdd a中的元素值翻倍

//map的输入函数，其参数e为rdd元素值

def myfuncPerElement(e:Int):Int = {

println("e="+e)

e*2

}

//mapPartitions的输入函数。iter是分区中元素的迭代子，返回类型也要是迭代子

def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = {

println("run in partition")

var res = for (e <- iter ) yield e*2

res

}

val b = a.map(myfuncPerElement).collect

val c = a.mapPartitions(myfuncPerPartition).collect

在spark shell中运行上述代码，可看到打印了3次run in partition，打印了10次e=。

从输入函数（myfuncPerElement、myfuncPerPartition）层面来看，map是推模式，数据被推到myfuncPerElement中；mapPartitons是拉模式，myfuncPerPartition通过迭代子从分区中拉数据。

这两个方法的另一个区别是在大数据集情况下的资源初始化开销和批处理处理，如果在myfuncPerPartition和myfuncPerElement中都要初始化一个耗时的资源，然后使用，比如数据库连接。在上面的例子中，myfuncPerPartition只需初始化3个资源（3个分区每个1次），而myfuncPerElement要初始化10次（10个元素每个1次），显然在大数据集情况下（数据集中元素个数远大于分区数），mapPartitons的开销要小很多，也便于进行批处理操作。

mapPartitionsWithIndex和mapPartitons类似，只是其参数多了个分区索引号。

奋斗吧_攻城狮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

奋斗吧_攻城狮 CSDN认证博客专家 CSDN认证企业博客

码龄10年

64: 原创

6万+: 周排名

215万+: 总排名

70万+: 访问

: 等级

6377: 积分

208: 粉丝

215: 获赞

56: 评论

745: 收藏

私信

关注

热门文章

分类专栏

SpringBoot&Cloud 12篇
前端 6篇
JAVA 52篇
WEB 14篇
Hadoop 15篇
OSGI 1篇
MySQL/MariaDB 65篇
数据结构/算法 9篇
Android 1篇
Linux 17篇
架构设计/解决方案 4篇
Python 6篇
MongoDB 30篇
编程软件 8篇
Spark 7篇
Hive 10篇
Maven 1篇
Hbase
ElasticSearch
Spring全家桶 9篇
netty 3篇
计算机理论 5篇
中间件 18篇
运维和部署 12篇
成长与规划 1篇
知识点笔记 1篇

最新评论

hystrix中RequestContextHolder取值为空的问题
哆啦A梦爱吃铜锣烧吗: 如果我有两个策略我要怎么样才能兼容呢
Ubuntu下离线安装MongoDB教程
Daydayup H: /etc/mongodb.conf还需要写上bind_ip=0.0.0.0，要不然可能远程连不了
中缀表达式转换成前缀表达式和后缀表达式的极其简单方法
炎黄子孙__: 可以啊，这个有证明过程吗？为啥可以这么做？
分析 Netty 死锁异常 BlockingOperationException
Kako_IO: 监听器方式做的话，想要设置等待时间怎么搞，比如原本是 ChannelPromise promise = ctx.newPromise; ctx.writeAndFlush("123"); promise.await(30, TimeUnit.SECONDS); ，最长等30秒；做成监听器的话，如何控制这个最大等待时间
ConcurrentHashMap为什么是弱一致性的
qq511335254: 博主，请问文中的jdk是什么版本，我自己看jdk1.7中的segment类中没有get方法。concurrentHashMap中的get是直接定位遍历查找的，没有用if判断哈希桶中元素的数量。还有就是我看的Entry中的next也是volatile修饰的，保证新增节点的可见性；

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。