在dataframe中实现SQL的over partition by运用

最新推荐文章于 2022-10-01 22:28:01 发布

kunkun_1230

最新推荐文章于 2022-10-01 22:28:01 发布

阅读量1.6k

点赞数 1

分类专栏： scala Python SQL 文章标签： over partition by

本文链接：https://blog.csdn.net/weixin_44731100/article/details/103444809

版权

本文探讨如何在Python、SQL和Spark的Dataframe中使用`over partition by`功能。通过示例展示了如何在Python Dataframe中通过groupby和rank找出每个学生最低和最高分数的科目，同时对比了SQL中PG数据库的用法和Spark Dataframe的窗口函数应用。

摘要由CSDN通过智能技术生成

这里，我们以某个班级不同ID同学，不同科目（Class）的考试成绩（Score）为例。

首先生成一个Dataframe

import pandas as pd
ID = [1,1,1,2,2,2,3,3,3,4,4,4]
Class = ['A','B','C','A','B','C','A','B','C','A','B','C']
score = [90,80,70,60,80,100,90,100,80,70,80,90]

df = pd.DataFrame({'ID':ID,'Class':Class,'Score':score})

df的结构如下：

Python中的运用

如果我们想找到每个同学成绩最低的那门课和得分，我们需要进行groupby操作后加入rank操作，并引入一个新的字段

df['rank'] = df.groupby('ID')['Score'].rank('min')

结果如下，显然这个时候只需要对rank进行筛选即可

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kunkun_1230

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Database之SQL：SQL之over partition by开窗函数的简介、使用方法(求各班级内各自排名/求各班级内第一名/求各班级内分数递增和等案例解析)之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

01-05

1943

Database之SQL：SQL之over partition by开窗函数的简介、使用方法(求各班级内各自排名/求各班级内第一名/求各班级内分数递增和等案例解析)之详细攻略目录 over partition by开窗函数的简介 1、over partition by与group by的区别 over partition by开窗函数的使用方法 1、函数用法公式 2、案例—求各班级内各自排名 T1、利用rank() over(partition by)函数实现 T2、利用dense_r

pandas实现to_sql将DataFrame保存到数据库中

09-19

总之，Pandas 的 `to_sql` 功能是数据分析师和数据科学家在实际工作中不可或缺的工具，它使得在 DataFrame 和数据库之间传输数据变得简单易行。了解并熟练掌握这个方法，将有助于提升我们在数据分析流程中的工作效率...

参与评论您还未登录，请先登录后发表或查看评论

【spark】七 DataFrame的repartition、partitionBy、coalesce区别

百物易用是苏生

05-15

1万+

环境：spark 2…3.1 python 2.7 问题：发现spark DataFrame.write 无论format(“csv”).save(hdfsPath)中是csv、parquet、json，或者使用write.csv() write.json()保存之后都是一个目录，下面生成很多个文件，只有设置分区为一个时，才能在目录下只有一个.success文件和一个分区数据文件（即小文件数据文...

【pandas】[4] DataFrame实现sql中row_number() over(partition by column_1 order by column_2)

xiezhen_zheng的博客

04-06

3353

需求：pandas中能不能实现如sql中一样的分组排序取值 1、构建测试数据 import pandas as pd df = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2'], 'data' : [10,100,20,30,300]}) print(df...

Hive如何实现 count(distinct ) over (partition by )？

雾岛与鲸的博客

08-27

1万+

使用 collect_set(字段) over(partition by ) 来实现: select * from ( select o.* -- ,count(distinct package_id) over(partition by user_id) cnt 报错 ,size(collect_set(package_id) over(partition by user_id)) cnt from o ) a where a.cnt > 1; ......

Spark DataFrame 的窗口函数使用的两种形式介绍

helloxiaozhe的博客

07-27

3671

1、概述上文介绍了sparkdataframe常用操作算子。除此外，spark还有一类操作比较特别——窗口函数。窗口函数常多用于sql，spark sql也集成了，同样，spark dataframe也有这种函数，spark sql的窗口函数与spark dataframe的写法不太一样。 1.1、spark sql 写法 select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.

在pandas中遍历DataFrame行的实现方法

01-02

有如下 Pandas DataFrame： import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df = pd.DataFrame(inp) print df 上面代码输出： c1 c2 0 10 100 1 11 110 2 12...

在Python dataframe中出生日期转化为年龄的实现方法

09-20

在本节内容中，我们将详细介绍如何在pandas的DataFrame中进行出生日期到年龄的转换，并且提供了一些额外的处理方法，例如提取出生的月份和日。首先，我们需要将出生日期的字符串转换为pandas能够识别的时间格式。...

python或pyspark，sql对一个dataframe，排序并排名

a1272899331的博客

05-16

6242

输入：输出：具体代码：一：纯python代码 import pandas as pd data=pd.DataFrame({'c1':[5,8,3,3,4,1]}) print(data) d1= data.sort_values(by='c1') d1['rank']=d1.rank(method='min').astype(int) print(d1) 二：pyspa...

OVER(PARTITION BY)函数介绍

weixin_33794672的博客

03-31

5133

问题场景　　　　最近在项目中遇到了对每一个类型进行求和并且求该类型所占的比例，当时考虑求出每种类型的和，并在java中分别对每一种类型的和与总和相除求出所占比例。后来，想到这样有点麻烦，并且项目中持久层使用的是iBatis框架，所有考虑从SQL方面进行入手来简化这个问题。　　后来SQL的解决方法就为： 1 SELECT T.CHANNEL AS PATTERN, 2 ...

SQL中OVER（PARTITION BY）详解

李爱涛的博客

05-28

1万+

一：首先我们先举个例子来认识一下over的庐山真面目现在我们的需求是查询出来两个班级的前三名可以通过以下：之前我的想法是根据分数排序然后取三条，后面发现如果分数一致的话，比如有3个人并列第一名，则这样的写法就完全不满足需求，所以我们可以通过over开窗函数来实现上面的要求 SELECT * FROM ( SELE...

窗口函数OVER(PARTITION BY)详细用法——语法+函数+开窗范围ROWS和RANGE

热门推荐

Ahuuua的博客

10-01

2万+

窗口函数OVER(PARTITION BY)详细用法，PARTITION BY写法，ROWS和RANGE的区别，各种函数共功能说明

python pandas实现partition by组内排序功能

06-24

3482

import pandas as pd import numpy as np dic={'科目':['语文','语文','语文','语文','数学','数学','数学','数学','英语','英语','英语','英语'], '姓名':['赵大','钱二','孙三','李四','周五','郑六','王七','朱八','小红','小明','小李','小王'], '分数':[95,84,93,88,91,93,84,85,94,93,83,87]} data=pd.DataF.

Spark-SQL之DataFrame操作大全

weixin_30355437的博客

10-12

5893

　　Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。　　本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文...

spark scala dataframe 窗户函数Window的应用实现row_number() over(partition by , order by )

u010865811的博客

04-02

3834

需要引入的包： import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ //scala实现row_number() over(partition by , order by ) val w = Window.partitionBy($"prediction").o...

查看dataframe的缺失值以及选取每个类目下前topN的数据

一碗竹叶青的博客

11-04

360

// 显示每个类目的缺失值 data.select(data.columns.map(c => sum(col(c).isNull.cast("int")).alias(c)): _*).show data.groupBy("cate1").count().show(30) println(data.count()) //3046 def SortedCate(df:DataFrame): DataFrame ={ // 循环类别赋值label val N = 10 val window =

第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记

slq1023的博客

03-29

2346

第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记本期内容： 1 RDD与DataFrame转换的重大意义 2 使用Java实战RDD与DaraFrame转换 3 使用Scala实战RDD与DataFrame转换一． RDD与DataFrame转换的重大意义在Spark中RDD可以直接转换成DataFrame。SparkCo

【Spark实战系列】spark 中 repartition 和 partitionBy 的源码分析

JasonLee实时计算

11-21

1万+

今天来介绍一下spark中两个常用的重分区算子,repartition 和 partitionBy 都是对数据进行重新分区，默认都是使用HashPartitioner，区别在于partitionBy 只能用于 PairRdd，但是当它们同时都用于 PairRdd时,效果也是不一样的,下面来看一个demo. package test import org.apache.log4j.{Leve...

如何定义DataFrame的分区？

OH LEI``

11-17

2555

SPARK-22614公开了范围分区 Spark> = 2.3.0 val partitionedByRange = df.repartitionByRange(42, $"k") partitionedByRange.explain // == Parsed Logical Plan == // 'RepartitionByExpression ['k ASC NULLS FIRS...

使用pandas实现over partitionBy的功能

最新发布

08-03

### 回答1： Pandas 提供了一组函数，可以在分组后对数据进行聚合。要使用这些函数，需要使用 `groupby()` 函数对数据进行分组。例如，如果要根据 "State" 列对数据进行分组，可以使用以下代码： ``` df.groupby("State") ``` 分组后，可以使用聚合函数（如 `mean()`、`max()`、`min()` 等）来计算分组数据的统计信息。例如，要计算每个州的平均销售额，可以使用以下代码： ``` df.groupby("State")["Sales"].mean() ``` 要计算每个州的最大销售额，可以使用以下代码： ``` df.groupby("State")["Sales"].max() ``` 要根据多个列进行分组，可以将多个列名放在一个列表中，并传递给 `groupby()` 函数。例如，要根据 "State" 和 "Region" 列进行分组，可以使用以下代码： ``` df.groupby(["State", "Region"]) ``` 请注意，`groupby()` 函数返回的是一个分组对象，而不是分组后的数据。要获取分组后的数据，需要在分组对象上使用聚合函数（如 `mean()`、`max()`、`min()` 等）。有关分组和聚合的更多信息，请参阅 Pandas 文档：https://pandas. ### 回答2：要实现类似于SQL中的over partition by功能，可以使用pandas的groupby和transform方法。在pandas中，groupby方法可以根据指定的列对数据进行分组，transform方法可以对每个分组应用计算函数，并将结果返回到原始数据中。假设有一个包含多个用户行为数据的DataFrame，其中包括用户ID（user_id）、行为类型（action_type）和行为时长（action_duration）等列。我们希望对每个用户ID进行分组，并计算每个用户的平均行为时长和总行为时长。可以按照以下步骤实现： 1. 导入pandas库并读取数据到DataFrame中。 2. 使用groupby方法按照用户ID进行分组。 3. 使用transform方法对行为时长列进行平均和求和计算。 4. 将计算结果保存到新的列中。示例代码如下： ```python import pandas as pd # 读取数据到DataFrame df = pd.read_csv('data.csv') # 使用groupby和transform计算每个用户的平均行为时长和总行为时长 df['avg_duration'] = df.groupby('user_id')['action_duration'].transform('mean') df['total_duration'] = df.groupby('user_id')['action_duration'].transform('sum') # 输出结果 print(df) ``` 通过上述代码，我们可以获得一个新的DataFrame，其中包含了每个用户的平均行为时长和总行为时长。这样就实现了类似于SQL中的over partition by功能。