如何高效用mapPartitions

最新推荐文章于 2022-07-19 19:58:48 发布

xiaoyaGrace

最新推荐文章于 2022-07-19 19:58:48 发布

阅读量703

点赞数

分类专栏： mapPartitions

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/102820939

版权

本文探讨如何高效使用Spark中的mapPartitions，通过对比map与mapPartitions的性能差异，指出mapPartitions在处理大数据时的优势。示例展示了mapPartitions低效和高效用法，提醒开发者注意避免内存溢出的问题，并提供了一种无需缓存数据的解决方案。

摘要由CSDN通过智能技术生成

如何高效用mapPartitions

1. mappartition的妙用

本文主要想讲如何高效的使用mappartition。首先，说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了，比如foreach和foreachPartition的区别。主要是map和foreach这类的是针对一个元素调用一次我们的函数，也即是我们的函数参数是单个元素，假如函数内部存在数据库链接、文件等的创建及关闭，那么会导致处理每个元素时创建一次链接或者句柄，导致性能底下，很多初学者犯过这种毛病。而foreachpartition是针对每个分区调用一次我们的函数，也即是我们函数传入的参数是整个分区数据的迭代器，这样避免了创建过多的临时链接等，提升了性能。下面的例子都是1-20这20个数字,经过map或者MapPartition然后返回a*3。

2. map的使用

[Scala] 纯文本查看 复制代码

1

2

3

4

5

6

val a = sc.parallelize(1 to 20, 2)

def mapTerFunc(a : Int) : Int = {

a*3

}

val mapResult = a.map(mapTerFunc)

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何高效用mapPartitions

如何高效用mapPartitions1. mappartition的妙用本文主要想讲如何高效的使用mappartition。首先，说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了，比如foreach和foreachPartition的区别。主要是map和foreach这类的是针对一个元素调用一次我们的函数，也即是我们的函数...
复制链接

扫一扫

专栏目录

xiaoyaGrace CSDN认证博客专家 CSDN认证企业博客

码龄5年

1265: 原创

13万+: 周排名

195万+: 总排名

56万+: 访问

: 等级

1万+: 积分

62: 粉丝

110: 获赞

42: 评论

686: 收藏

私信

关注

热门文章

分类专栏

最新评论

华为OD两轮技术面试
梦想橡皮擦: 华为OD机试题 Python，java，C++，js 代码分享，帮助600+人高分通过机试了 https://blog.csdn.net/hihell/category_12199275.html
用python算卦——银钱演算法
muenfox: 感谢分享，学习了
HBase 中加盐（Salting）之后的表如何读取：协...
qq_36469875: 話説你們實現過嗎? proto 生成的java類，裏面有很多語法錯誤，以及包找不到
标准正交表与混合正交表的使用
搞测试的: 在哪下载呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。