【PySpark系列(五)】窗口Window定义、窗口函数超详细实例讲解

本文主要介绍如下知识点:
① pyspark.sql.Window。什么是窗口?如何创建窗口?怎么理解窗口的含义?
② currentRow、unboundedFollowing、unboundedPreceding的含义。
③ rangeBetween()、rowsBetween()、rangeBetween()、rowsBetween()的含义。
④ 排名函数、分析函数、聚合函数在窗口上的应用。

在上一篇文章介绍partition by的使用实例时,我们用了窗口函数Window。本文我们就来详细介绍Window窗口、以及一些窗口函数的作用及使用方法。

当我们需要在DataFrame列的特定窗口中进行聚合操作时,Window窗口函数会派上用场。Window窗口函数在实际业务场景中非常实用,用的好的话能避免很多浪费时间的计算。

一、什么是窗口(Window)及如何使用PySpark中的Window?

1.1 什么是窗口?

在单表数据操作中,一般有下面两种操作范式:

  • 针对单条数据的映射操作,例如每条数据加一的时候。
  • 将数据分组后的聚合操作,例如进行分组统计的时候。

在第一种范式中有这样一种情况,当你要生成某条目标数据的时候你需要用到前后N条数据参与计算。

例如:当你需要基于每天的用户访问数,来计算七天的移动平均访问数,就需要按照时间排序,每一条数据的计算都需要前面6条数据一起参与计算。那这时就需要用到窗口(Window)的概念了,当前行(currentRow)与当前行的前6行一起组成了一个窗口。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叹了口丶气

觉得有收获就支持一下吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值