spark分组求top值JAVA版本

最新推荐文章于 2024-04-24 19:02:34 发布

wangyangmingtian

最新推荐文章于 2024-04-24 19:02:34 发布

阅读量456

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/yangmingtia/article/details/108260422

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在工作中我们常常会遇到在一堆数据中求top值的问题，也会遇到分组求top值的现象，分组如何求解呢？这时候我们可以借助窗口函数进行实现，在spark中使用row_number进行实现。本文的实现使用的是java版本实现，并不是使用spark sql实现的，因为使用spark sql实现需要使用临时视图，比较麻烦，下次补充spark sql版本。

原始数据datasetMarket=spark.read.parquet("basePath").select("学校", "班级","成绩")

1.首先对要进行分组的数据分组进行排序，并计算各数据在自己所在组内的排名的名次。

Column alias = functions.row_number()
        .over(Window.partitionBy("学校", "班级")
        .orderBy(desc("成绩")));

其中partitionBy（）表示分组的粒度，orderby表示按照那个字段排序排名。

最后生成的alias则为要进行分组数据的一个列，其中包含数据的排名信息。

2.将第一步计算得到的排名信息添加为原始数据列中。

datasetMarket.withColumn("rowNumber", alias)
        .filter(col("rowNumber").leq(50))

其中rowNumber为排名列，后面的filter表示得到的各分组的top50的数据。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangyangmingtian

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【spark】示例：求Top值

weixin_30627341的博客

05-14

1619

我们有这样的两个文件第一个数字为行号，后边为三列数据。我们来求第二列数据的Top(N) (1)我们先读取数据，创建Rdd (2)过滤数据，取第二列数据。我们用filter()来过滤数据 line.trim().length是除去行末尾的空格然后计算长度，长度大于0，并且分能用逗号切分为4个子数据的数据为有效数据。然后我们来切分取出第二列数据，即arr(2),arr(0...

JavaSpark | RDD实战：分组top n

liujiesxs的博客

07-22

545

分组top n -- javaSaprk

1 条评论您还未登录，请先登录后发表或查看评论

Spark求TOP值

DaB_za的博客

04-12

1583

本题为林子雨老师的课件中的一道题，现在写在这里，主要是记录一下自己的踩坑经历，顺带加深一下对数据预处理的映像，数据预处理至关重要，一定不能疏忽。原题目：这道题首先第一个点，这是两个文件，所以可以把这两个文件放在一个文件夹下，用sc.textFile()读文件的时候，直接读取文件夹，这样就可以把两个文件一起读进去。我在第一次尝试的时候，写的代码如下： from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("lo

spark实验求TOP值

最新发布

m0_64825044的博客

04-24

1435

已知存在两个文本文件，file1.txt和file2.txt，内容分别如下：file1.txtfile2.txt以上两个文件所存储的数据字段的意义为：orderid, userid, payment, productid。

Spark排序求Top值

python -学习笔记

12-14

1167

from pyspark import SparkContext, SparkConf conf = SparkConf().setMaster('local').setAppName('ReadHBase') sc = SparkContext(conf=conf) lines = sc.textFile("D://tydic_study\spark//num.txt") # 存放文件的路径...

sparkSql分组求top值

yangmingtia的博客

08-28

1204

上篇文章中介绍了使用JAVA版本的分组求top值，下面介绍一下使用sparkSql分组求top 1.首先准备源数据 datasetMarket=spark.read.parquet("basePath").select("学校", "班级","成绩") 2.创建临时视图在获取源数据之后，对数据创建临时视图，格式如下： datasetMarket.createTempView("groupTop") 3.核心语句，分组top值 spark.sql(select "学校, 班级,成绩 fro

Spark 计算 - 实现分组求 TopN

Henvealf的博客

04-25

1226

问题抽象：找出分组内数据的 TopN。问题实例找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。思路思路: 这里的名字只是附属属性，求每个省份最高的5个点击数即可。首先按照省份分组，在组内聚合求 top 5参考 top() 算子的实现方法，使用一个有固定长度（这里即5）的优先队列，每个组内迭代将元素add进优先队列中，最...

Spark：Java实现分组取Top N

菜如张学清的博客

12-06

1321

1、源数据如下，取出每班成绩的前三名class1 98 class2 90 class2 92 class1 96 class1 100 class2 89 class2 68 class1 81 class2 90 2.实现代码package cn.spark.study.core;import java.util.ArrayList; import java.util.Arrays; impor

Spark RDD案例（一）分组TopN

xiaohu21的博客

09-25

1199

Spark RDD案例（一）分组TopN 1. 背景作为分布式数据处理引擎，Spark抽象出了很多算子，使得编程对比mapreduce更加遍历，实现需求时，也可以更加灵活，但也更容易出错。本文是大数据常见场景分组TopN的简化案例，实际企业生产中也会相对频繁遇到类似需求 2. 案例需求以下数据是类似网站日志的记录，需要求出每个科目老师访问次数最多的那2个。数据 http://bigdata.doit.cn/laozhang http://bigdata.doit.cn/laozhang h

Spark学习之路(九)：使用分组取TopN算法配合Spark算子实现复杂业务逻辑案例实战

萧邦主的城邦

07-20

1037

内容简介一、分组取TopN算法二、需求分析及实现逻辑三、需求分步骤实现详细代码讲解1.从数据源读取数据创建RDD2.处理原始数据，创建元组RDD3.将数据以班级id分组4.计算每个班级的平均分，并将平均分作为Key，班级ID作为Value创建RDD4.按照平均分降序排序并取出平均分前三的班级，创建RDD5.将Top3元组的Key与Value互换后使用join操作得到Top3班级所有学生的信息6.对...

Java spark分组排序_Spark分组TOPN排序

weixin_39593718的博客

02-13

286

/*** Created by zhangshuai on 2016/9/22.*/// 输入文件// Spark 100// Hadoop 65// Spark 99// Hadoop 61// Spark 195// Hadoop 60// Spark 98// Had...

Spark——期末考试大作业：求top值、文件排序、二次排序程序个性化

maochaofei的博客

06-06

4504

文章目录任务1：求top值程序个性化（30分） 1. 创建工作项目mcf14gzxm 2. 创建eclipse应用程序 3. 导入mcf14gzxm项目 4. 创建数据样本文件mcf14TopN.txt 5. 创建程序代码文件mcf14TopN.scala任务2：文件排序程序个性化（30分） 1. 创建数据样本目录mcf14file及文件mcf14file1.txt、mcf14file2.txt、mcf14file3.txt 2. 创建程序代码文件mcf14FileSort.scala任务3：二次排序程序个

Spark中实现TOP N (Java版本)

大唐帝国—前营

10-25

2231

1、下面是源数据，取出最大的前3个数字。 2 4 1 6 8 10 34 89 2、开发实现过程如下： package gh.spark.Basic; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; im

大数据-spark：综合实例、求top值、文件排序、二次排序

sxj的专栏

10-06

5741

一、求top值实例 1、首先准备数据文件，假设有两个文件，内容以逗号分隔，分别是orderid,userid,payment,productid要求求出payment TOP N个，下面给出file1.txt、file2.txt、file3.txt文件，文件内容为：（1）file1.txt文件内容： 1,1734,43,155 2,4323,12,34223 3,5442,32,3453...

Spark求TopN值、二次排序、三次排序实现

heiioworld_的博客

05-19

2931

《Spark技术应用》期末考试大作业说明： 1)个性化即在主机名、文件、程序、数据、和表结构等元素上添加自己姓名拼音缩写。 2)提交时间：xxx 3)评分规则： a)超期提交或者不交者按缺考算，来年重修。 b)P图者0分，来年重修。 c)按个性化点的多少评分，即个性化点数越多，分数越高。 d)须在图片上对个性化点标红。 4)提交方式和内容：在钉钉群上建提交文件夹，以“学号+姓名”格式命名。 5)提交内容：大作业电子文档和源码包。目录 2 任务1：求top值程序个性化 2 1.1、编写用于产生随机数据的s

Spark编程-使用SparkCore求TopN,Max_Min_Value

Matrix70的博客

07-17

710

本文主要使用SparkCore求top5值编程，博客中有响应数据，并且对于求最大最小值给了两种求法。

Spark基础--TOP值程序

mingyuexn的博客

06-17

276

Spark编程基础，练习用scala语言编写小程序

Spark Shell 基本操作+案例求Top值

weixin_43650171的博客

11-09

642

Spark Shell 基本操作进入spark shell案例：求TOP值进入spark shell 先jps判断hadoop和spark是否都启动。 jps spark-shell --master spark://master:7077 案例：求TOP值任务描述：字段为：orderid,userid,payment,productid 数据目录：/usr/sort/file1.txt /usr/sort/file2.txt 代码目录：/usr/code/topfive.scala 数据： fi

Spark API 之 top() 函数

qq_29499107的博客

07-17

3459

top函数是一个柯理化函数，全写为：def top(num: Int)(implicit ord: Ordering[T]): Array[T] 并且带有隐式参数ordering类型，说明该方法中肯定会用到排序，参数num : 是排序后取出前 num个。 demo1: val a = sc.parallelize(List(2,4,5,6,2,1,9,9,9,10,10,10,34...

spark 分组后求最大值

05-22

好的，您可以使用pyspark的reduceByKey()函数进行分组和求最大值操作，示例代码如下： ``` from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("MaxValue").setMaster("local") sc = ...