Hive第六天——Hive函数（开窗函数之累计统计）

最新推荐文章于 2023-08-07 16:02:43 发布

VIP文章 Nix GnaHz

最新推荐文章于 2023-08-07 16:02:43 发布

阅读量7.1k

点赞数 1

分类专栏： Hive基础文章标签： jasmine hive第六天

本文链接：https://blog.csdn.net/weixin_45473750/article/details/101553475

版权

本文部分参考自：https://blog.csdn.net/qq_23897391/article/details/100558433

Hive第六天——Hive函数

自己的话：千里之行，始于足下。

每天都要保持前进，我势必要有强劲的实力，再跟明天的自己问好。

这类函数叫法很多，包括分析函数、窗口函数、开窗函数、分析窗口函数，其实说的都是一类函数

开窗函数用于为行定义一个窗口（这里的窗口是指运算将要操作的行的集合），它对一组值进行操作，不需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。

sum(columns) over (partition by col1 order by col2 rows between n/unbounded preceding and m following/current row )

如果不指定rows between，默认为从起点到当前行；
如果不指定order by，则将分组内所有值累加；

关键是理解rows between含义，也叫做window子句：

在Hive中开窗函数按功能主要分为以下四类：

Hive中提供了很多分析函数，用于完成负责的统计分析。先看看基础的sum,avg,min,max，用于实现分组内所有和连续累计的统计。

数据准备：
新建test.txt文件，输入如下的三列数据，以空格分隔。第一列是月份，第二列代表商铺名称，第三列代表该商铺该月营业额（万元）。

[root@hadoop ~]# vim test.txt 
 
2019-01 a 10
2019-02 a 20
2019-03 a 30
2019-01 b 10
2019-02 b 20
2019

关注