hivesql

最新推荐文章于 2022-10-06 21:29:22 发布

茂密头发的源猴

最新推荐文章于 2022-10-06 21:29:22 发布

阅读量121

点赞数

文章标签： hive

本文链接：https://blog.csdn.net/weixin_48109576/article/details/108438168

版权

语法：

分析函数 over(partition by 分组列 order by 排序列 rows between 开始位置 and 结束位置)

常用分析函数：

聚合类
avg()、sum()、max()、min()
排名类
row_number() 按照值排序时产生一个自增编号，不会重复
rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位
dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位
其他类
lag(列名,往前的行数,[行数为null时的默认值，不指定为null])
lead(列名,往后的行数,[行数为null时的默认值，不指定为null])
ntile(n) 把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，ntile返回此行所属的组的编号
注意点：
over()函数中的分区、排序、指定窗口范围，可组合使用也可以不指定，根据不同的业务场景需求结合使用
over()函数中如果不指定分区，窗口大小默认针对查询产生的所有数据，如果指定了分区，窗口大小针对每个分区的数据
over()函数中的窗口范围说明：
current row：当前行
unbounded：起点，unbounded preceding 表示从前面的起点， unbounded following表示到后面的终点
n preceding ：往前n行数据
n following：往后n行数据

指定一个窗口边界:rows between+可选项+and+可选项 or range between+可选项+and+可选项

rows between CURRENT ROW | UNBOUNDED PRECEDING | [num] PRECEDING and UNBOUNDED FOLLOWING | [num] FOLLOWING| CURRENT ROW
或
range between [num] PRECEDING and [num]FOLLOWING

保姆级翻译:

CURRENT ROW ==>current row当前行

UNBOUNDED PRECEDING ==>unbounded preceding 第一行或则说首行

[num] PRECEDING ==> [num] preceding 前几行

UNBOUNDED FOLLOWING ==>unbounded following 最后一行

[num] FOLLOWING ==>[num] following 后几行

用图表示如下:

ROWS是物理窗口，从行数上控制窗口的尺寸的；

RANGE是逻辑窗口，从列值上控制窗口的尺寸。这个比较难理解，但说白了就简单了，具体解释如下面栗子1.

结合order by子句使用，如果在order by子句后面没有指定窗口子句，则默认为：range between unbounded preceding and current row 或则是 rows between unbounded preceding and current row
举例1:详细内容请点链接看 hive sql经典面试题

后续再添加上案例...

茂密头发的源猴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hivesql

语法：分析函数over(partition by分组列 order by排序列rows between 开始位置 and 结束位置)常用分析函数：聚合类 avg()、sum()、max()、min() 排名类 row_number() 按照值排序时产生一个自增编号，不会重复 rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位 dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位其他类 lag(列名,往...
复制链接

扫一扫