用spark做一个反爬虫项目的时候,需要记录很多记录中的最后一条,例如(1,2),(1,3),(1,8),(2,11),(2,7),(3,2),(3,9)要获得(1,8),(2,7),(3,9),熟悉spark的同学都知道可以通过groupByKey然后取.length-1个可以解决,但是有个更简单的办法,就是用reduceByKey((x,y)=>y),其中y就是最后值。
引申:reduceByKey((x,y)=>x)的x获取的是第一个值。
reduceByKey一个巧妙的用法
最新推荐文章于 2023-07-05 18:45:00 发布