Spark——二次排序（scala）

最新推荐文章于 2021-06-06 16:40:17 发布

黑箭

最新推荐文章于 2021-06-06 16:40:17 发布

阅读量1k

点赞数 1

分类专栏： spark 大数据文章标签： scala spark

本文链接：https://blog.csdn.net/yinhenan11/article/details/53836924

版权

本文介绍了在Spark中如何使用Scala实现二次排序的两种方法：一是通过分组和手动排序，二是自定义数据类型并实现Ordered和Serializable接口。内容包括自定义数据类型的比较规则，以及两种方法的排序结果展示。

摘要由CSDN通过智能技术生成

Spark实现二次排序的两个版本（Scala）：
（1）利用分组，手动将第二个元素按规则排序
（2）自定义数据类型，继承Ordered和Serializable接口，实现compare方法。
（此方法和Hadoop中MapReduce实现二次排序的方法类似）

case class MySecType(first: String,second: Int) extends Ordered[MySecType] with Serializable{
   
  override def compare(that: MySecType): Int = {
    if(this.first != that.first)
      this.firs

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑箭

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark: sortBy sortByKey 二次排序

Wang Qinghe

09-12

3554

Sample data（考场号，班级号，学号）–> 考场号升序，班级号升序，学号降序1 1 3 1 1 4 1 2 8 1 3 7 3 2 9 3 5 11 1 4 13 1 5 12 2 1 14 2 1 10 2 4 1 2 3 5 2 4 6 3 5 2 3 2 15 1 1 16 2 2 17 3 3 18 2 2 19 3 3 20sortBypackage com.spark.sort

Spark入门-scala实现二次或多次排序问题

Enche的博客

12-28

1241

例如有个数据表结构如：年龄年级姓名... 希望首先根据年龄大小进行排序，如果年龄大小相同的情况下，再考虑年级大小的情况二次排序或多次排序： spark中使用基本的排序一般为sortByKey方法，在进行二次排序或者多次排序时需要自己想办法解决，sortByKey方法中主要是根据key键对象实现的compare方法进行排序的，根据compare返回的Int型整数来判断对比的

参与评论您还未登录，请先登录后发表或查看评论

Spark Scala 二次排序

03-14

1000

package com.second.sortbyspark import org.apache.spark.{SparkConf, SparkContext} /** * Created by xxxxx on 3/14/2017. */ object SecondarySort { def main(args: Array[String]): Unit = { va

Spark Scala 二次排序

行走的树

10-19

591

* 比较器： * 1. 继承 Ordered[T] 和Serializeable 方法 * 2. 重写 compare 方法 * 3. 需要传入参数

spark scala版本的二次排序

chixushuchu的博客

12-14

543

import java.io.Serializable class SortKey(val clickCount:Int,val orderCount:Int,val payCount:Int) extends Ordered[SortKey] with Serializable { override def compare(that: SortKey): Int ={ ...

Spark——期末考试大作业：求top值、文件排序、二次排序程序个性化

maochaofei的博客

06-06

4582

文章目录任务1：求top值程序个性化（30分） 1. 创建工作项目mcf14gzxm 2. 创建eclipse应用程序 3. 导入mcf14gzxm项目 4. 创建数据样本文件mcf14TopN.txt 5. 创建程序代码文件mcf14TopN.scala任务2：文件排序程序个性化（30分） 1. 创建数据样本目录mcf14file及文件mcf14file1.txt、mcf14file2.txt、mcf14file3.txt 2. 创建程序代码文件mcf14FileSort.scala任务3：二次排序程序个

Spark学习——利用Scala语言开发Spark应用程序

Miracle_shen的博客

06-07

6201

Spark学习——利用Scala语言开发Spark应用程序Spark内核是由Scala语言开发的，因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉，可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。本文将介绍3个Scala Spark编程实例，分别是WordCount、TopK和Sp

《Spark 8》--Spark案例之数字排序、键值对平均值、二次排序、Top10、单表关联、Pagerank算法、自定义分区

yk_3215123的博客

08-11

892

1.数字排序数据： D:\测试数据\排序\ sortFile1内容为： sortFile2内容为： 2 5956 32 ...

Spark——transformation

wangzhangni的博客

11-04

397

操作RDD（transformation和action案例实战） 1、transformation和action介绍 Spark支持两种RDD操作：transformation和action。 transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Driver程序。例如，m...

Spark二次排序

weixin_34127717的博客

09-21

156

2019独角兽企业重金招聘Python工程师标准>>> ...

Spark二次排序（Java+Scala）

囧芝麻的博客

06-01

697

1.基础排序算法sc.textFile("/data/putfile.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_,1).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).collect2.二次排序算法（Java实现）i

spark 二次排序两种方法（scala）

maenlai0086的博客

03-12

886

排序数据： aa 34 bb 24 cc 83 aa 53 cc 12 aa 47 bb 35 aa 21 cc 64 bb 73 第一种方法是用spark中的sortBy方法：首先将数据处理成（“aa”，34）的格式；然后使用sortBy算子进行排序； /** * 二次排序使用sortBy */ rdd.map(a => (a.split(" ")(0),a.split...

Spark分组二次排序

Spark2creat_palains的博客

06-14

1373

在运用Spark数据处理中，有时要对数据进行分组（二次）排序。数据存储在HDFS中。实现代码如下： package com.ibeifeng.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable

scala语言二次排序实现

kexin_010的博客

12-18

511

object SecondSort { def main(args: Array[String]) { val conf=new SparkConf().setAppName("SecondSort").setMaster("local[2]") val sc=new SparkContext(conf) val textFile=sc.textFile("/s

spark的二次排序

aitiejue5146的博客

10-26

115

通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Author Mr. Guo * Create 2018/9/29 - 22:00 */ class SecondarySort(val first: Int,...

【spark】示例：二次排序

weixin_30892889的博客

05-14

136

我们有这样一个文件首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛！但是你要明白这一点，我们平时所使用的键值对是不具有比较意义的，也就说他们没法拿来直接比较。我们可以通过sortByKey，sortBy(pair._2)来进行单列的排序，但是没法进行两列的同时排序。那么我们该如何做呢？我们可以自定义一个键值对的比较类来实现比较，类似...

Spark二次排序学习总结

coderlaw's study

08-17

803

二次排序Spark二次排序，即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据：（点击次数，下单次数，支付次数） A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45)需要分别对点击次数，下单次数，支付次数做比较。比较完35【点击次数】相等，则要对【下单次数】二次比较，若【下单次数】还是相等，则要对【支付次数再次比较】直

大数据推荐系统实战教程——使用Spark、Scala与MongoDB