python实现sql窗口函数

最新推荐文章于 2022-09-21 11:38:40 发布

wobushilegend

最新推荐文章于 2022-09-21 11:38:40 发布

阅读量573

点赞数

分类专栏： python 文章标签： sql python

本文链接：https://blog.csdn.net/wobushilegend/article/details/121700893

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

当使用Presto查询大数据时，由于内存限制，使用row_number()over()等窗口函数可能导致崩溃。解决方案是利用Python Pandas的groupby和rank方法进行数据处理。通过设置'ascending'参数进行升序排序，'method'参数选择'first'实现类似row_number()的功能。这种方法可以避免Presto内存溢出，提高大数据查询效率。

摘要由CSDN通过智能技术生成

背景：公司使用presto查询数据，presto使用内存计算，为避免用户运行大sql，导致presto崩溃，数据平台RD设置了单个节点的最大内存限制，使用row_number()over()等窗口函数非常容易超过内存限制，无法运行sql。

解决：用python pandas的groupby和rank进行排序

代码：df.['rank'] = df.groupby(['分组列'])['排序列'].rank(ascending = True , method = 'first')

参数说明：
ascending ：
True 升序
False 降序
method ：
dense——值相同，排名相同，后面不跳。例如：1,1,1,2,3 等价sql的dense_rank()
first——值相同，排名不同，根据出现顺序。例如：1,2,3,4 等价于sql的row_number()over()
min——值相同，排名相同，向后跳跃。例如：1,2,2,4
max——值相同，排名相同，向后跳跃。例如：1,3,3,4 等价于sql的rank()