在spark中使用udf完成包含判断 VS column.isin(XXX:_*)
在这之前,当遇到需要同时判断多个包含关系的时候,我都比较倾向于使用第一种。理由很简单,一个udf,解决所有问题。
但是,今天遇到了一个性能问题(平时肯定也出现了,但是没怎么关注),才关注到这样的现象。
val filterUsers = (episodesBC: Broadcast[Set[Long]], albumsBC: Broadcast[Set[Long]], channelsBC...
原创
2019-08-30 17:29:10 ·
601 阅读 ·
0 评论