spark 二次排序两种方法(scala)

排序数据:

aa 34
bb 24
cc 83
aa 53
cc 12
aa 47
bb 35
aa 21
cc 64
bb 73

第一种方法是用spark中的sortBy方法:

首先将数据处理成(“aa”,34)的格式;

然后使用sortBy算子进行排序;

/**
  * 二次排序使用sortBy
  */
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)

第二种方法是用spark中的sortByKey方法:

因为sortByKey方法是按照key值排序,所以需要构建特殊的key值类

class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
    override def compare(that: SortClass): Int = {
        if(!this.x.equals(that.x)){
            this.x.hashCode - that.x.hashCode
        }
        else {
            this.y - that.y
        }
    }
}

注意:该类在shuffle中是需要序列化传输的,所以要继承Serializable接口,不然会报错。

构建好key值类后,就可以使用sortByKey来排序了;

最后排序完以后,将排序用的key值去除掉;

rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
                .map(a => a._2)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值