什么是MapPartitions?
简单的理解就是以分区为单位的map函数,假如该分区有10000条数据,如果调用map函数的话,每次调用传入一条数据,也就是需要调用10000次。但是如果调用MapPartitions函数的话,只需要调用一次就能把该分区的数据传进去。
MapPartitions优势
性能会高一些,特别适合类似于连接数据库的场景
缺点
因为要一次性加载分区内所有数据,容易造成oom
什么是MapPartitions?
简单的理解就是以分区为单位的map函数,假如该分区有10000条数据,如果调用map函数的话,每次调用传入一条数据,也就是需要调用10000次。但是如果调用MapPartitions函数的话,只需要调用一次就能把该分区的数据传进去。
性能会高一些,特别适合类似于连接数据库的场景
因为要一次性加载分区内所有数据,容易造成oom
2251
340
1144

被折叠的 条评论
为什么被折叠?
