hive常用函数

最新推荐文章于 2021-04-08 15:10:23 发布

洛洛洛洛洛洛洛

最新推荐文章于 2021-04-08 15:10:23 发布

阅读量511

点赞数

分类专栏： hadoop生态

本文链接：https://blog.csdn.net/weixin_44740082/article/details/109345968

版权

hadoop生态专栏收录该内容

0 篇文章 0 订阅

订阅专栏

这篇博客详细介绍了Hive中的多种常用函数，包括拼接函数如CONCAT和CONCAT_WS，行转列和列转行操作如COLLECT_SET和EXPLODE，窗口函数的应用如LAG和LEAD，排名函数RANK、DENSE_RANK和ROW_NUMBER，条件函数和NVL函数的使用，以及日期函数和sort_array函数在处理列表排序问题上的应用。

摘要由CSDN通过智能技术生成

1.拼接函数

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;
CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

2.行转列

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生array类型字段。
collect_list():不去重
原始数据：

孙悟空	     白羊座	A
大海	     射手座	A
宋宋	     白羊座	B
猪八戒        白羊座	A
凤姐	     射手座	A

select
    concat(constellation, ",", blood_type) base，
    concat_ws('|', collect_list(name)) name
from
        person_info
group by
    constellation,  blood_type;

结果：

射手座,A            大海|凤姐
白羊座,A            孙悟空|猪八戒
白羊座,B            宋宋|苍老师

3.列转行（explode）

EXPLODE(col)：将hive一列中复杂的array或者map结构拆分成多行。

explode (array):返回多行array中对应的元素。如explode(array('A','B','C'))返回

在这里插入图片描述

explode(map):返回多行map键值对对应元素。如explode(map(1,'A',2,'B',3,'C'))返回

在这里插入图片描述

LATERAL VIEW
用法：LATERAL VIEW udtf(expression) tableAlias (虚拟表名)AS columnAlias(虚拟列名)
解释：用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。
原始数据：
在这里插入图片描述
结果

select
    movie,
    category_name
from 
    movie_info lateral view explode(category) table_tmp as category_name;

行转列，列转行案例

select
    category_name,
    concat_ws('|', collect_list(movie)) movies
from 
movie_info lateral view explode(category) table_tmp as category_name
group by category_name;

在这里插入图片描述

4.窗口函数

执行顺序仅在order和limit之前
OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。
CURRENT ROW：当前行
n PRECEDING：往前n行数据
n FOLLOWING：往后n行数据
UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING表示到后面的终点
LAG(col,n,default_val)：往前第n行数据
LEAD(col,n, default_val)：往后第n行数据
NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。注意：n必须为int类型。表示组数

select name,orderdate,cost, 
sum(cost) over() as sample1,--所有行相加 
sum(cost) over(partition by name) as sample2,--按name分组，组内数据相加 
sum(cost) over(partition by name order by orderdate) as sample3,--按name分组，组内数据累加 (和第四条相同，计算起点到当前行，默认排序后自动补充)
sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row ) as sample4 ,--和sample3一样,由起点到当前行的聚合 
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and current row) as sample5, --当前行和前面一行做聚合 
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING AND 1 FOLLOWING ) as sample6,--当前行和前边一行及后面一行 
sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample7 --当前行及后面所有行 
from business;

rows必须跟在Order by 子句之后，对排序的结果进行限制，使用固定的行数来限制分区中的数据行数量

查看顾客上次的购买时间
select name,orderdate,cost, 
lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) as time1, lag(orderdate,2) over (partition by name order by orderdate) as time2 
from business;

查询前20%时间的订单信息
select * from (
    select name,orderdate,cost, ntile(5) over(order by orderdate) sorted
    from business
) t
where sorted = 1;

5.rank

RANK() 排序相同时会重复，总数不会变（1，1，3，4）
DENSE_RANK() 排序相同时会重复，总数会减少（1，1，2，3）
ROW_NUMBER() 会根据顺序计算（1，2，3，4）

6.条件函数

统计男性女性的个数
sum(case sex when '男' then 1 else 0 end) male_count,
sum(case sex when '女' then 1 else 0 end) female_count

if(boolean,t1,t2):若布尔值成立，则返回t1,反正返回t2。如if(1>2,100,200)返回200
case when boolean then t1 else t2 end:若布尔值成立，则t1,否则t2,可加多重判断
coalesce(v0,v1,v2):返回参数中的第一个非空值,若所有值均为null,则返回null。如coalesce(null,1,2)返回1
isnull(a):若a为null则返回true，否则返回false

7.NVL

给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数都为NULL ，则返回NULL。

8.日期函数

to_date(string timestamp):返回时间字符串中的日期部分,如to_date('1970-01-01 00:00:00')='1970-01-01'
current_date:返回当前日期
year(date)：返回日期date的年,类型为int如year('2019-01-01')=2019
month(date)：返回日期date的月,类型为int,如month('2019-01-01')=1
day(date):  返回日期date的天,类型为int,如day('2019-01-01')=1
weekofyear(date1)：返回日期date1位于该年第几周。如weekofyear('2019-03-06')=10
datediff(date1,date2):返回日期date1与date2相差的天数，如datediff('2019-03-06','2019-03-05')=1
date_add(date1,int1):返回日期date1加上int1的日期,如date_add('2019-03-06',1)='2019-03-07'
date_sub(date1,int1):返回日期date1减去int1的日期,如date_sub('2019-03-06',1)='2019-03-05'
months_between(date1,date2):返回date1与date2相差月份,如months_between('2019-03-06','2019-01-01')=2
add_months(date1,int1):返回date1加上int1个月的日期，int1可为负数。如add_months('2019-02-11',-1)='2019-01-11'
last_day(date1):返回date1所在月份最后一天。如last_day('2019-02-01')='2019-02-28'
next_day(date1,day1):返回日期date1的下个星期day1的日期。day1为星期X的英文前两字母如next_day('2019-03-06','MO') 返回'2019-03-11'
trunc(date1,string1):返回日期最开始年份或月份。string1可为年(YYYY/YY/YEAR)或月(MONTH/MON/MM)。如trunc('2019-03-06','MM')='2019-03-01'，trunc('2019-03-06','YYYY')='2019-01-01'
unix_timestamp():返回当前时间的unix时间戳，可指定日期格式。如unix_timestamp('2019-03-06','yyyy-mm-dd')=1546704180
from_unixtime():返回unix时间戳的日期，可指定格式。如select from_unixtime(unix_timestamp('2019-03-06','yyyy-mm-dd'),'yyyymmdd')='20190306'