函数
- 在Hive中提供了非常丰富的函数用于对数据进行分析或者处理,还允许使用者自定义函数。
- 可以通过desc function 函数名来描述这个函数。
- 案例:提取年份。
2020-12-25
select year(‘2020-12-25’);
2020/12/25
方案一:替换
select year(regexp_replace(‘2020/12/25’, ‘/’, ‘-’));
方案二:切分
select cast(split(‘2020/12/25’, ‘/’)[0] as int);
- · 字符拼接
原始数据
music qq com
mail 163 com
news baidu com
mail qq com
建表
create table webs(third string, second string, first string) row format delimited fields terminated by ’ ';
加载数据
load data local inpath ‘/home/hivedemo/webs’ into table webs;
#music.qq.com
select concat(third, ‘.’, second, ‘.’, first) from webs;
select concat_ws(’.’, third, second, first) from webs;
select concat_ws(’.’, *) from webs;
- 案例:邮箱提取
方案一:提取
select regexp_extract(‘langang@tedu.cn’, ‘(.)@(.)’, 2);
方案二:切分
select split(‘langang@tedu.cn’, ‘@’)[1];
- 列转行
原始数据
猎杀T34 动作/历史/战争
隐形人 科幻/惊悚/恐怖
电话 剧情/悬疑/惊悚
风平浪静 剧情/爱情/犯罪
建表
create table movies(name string, kinds array) row format delimited fields terminated by ’ ’ collection items terminated by ‘/’;
加载数据
load data local inpath ‘/home/hivedemo/movie’ into table movies;
将一列数据转化为多行数据(炸裂) - 列转行
select name, k from movies lateral view explode(kinds) ktmp as k;
原始数据
joy 大方/开朗 打篮球/看电影
lucy 外向/阳光 看电影/听音乐
bob 开朗/活泼 听音乐/跑步
grace 阳光/幽默 看电影/健身
建表
create table person (name string, characters array, hobbies array) row format delimited fields terminated by ’ ’ collection items terminated by ‘/’;
加载数据
load data local inpath ‘/home/hivedemo/person’ into table person;
炸裂
select name, c, h from person lateral view explode(characters)ctmp as c lateral view explode(hobbies) htmp as h;
- 行转列
原始数据
1 tom
1 sam
1 lily
1 jack
2 lucy
2 alex
2 colin
2 charles
2 mike
3 peter
3 mark
3 simon
3 bruce
建表
create table student(class int, name string) row format delimited fields terminated by ’ ';
加载数据
load data local inpath ‘/home/hivedemo/student’ into table student;
以班级为单位,将数据聚合到一行上
需要将多行数据放到一列上 - 行转列
select class, concat_ws(’,’,collect_list(name)) from student group by class;
原始数据
1 1 tom
1 1 sam
1 2 lily
1 2 jack
1 2 lucy
2 1 alex
2 1 colin
2 2 charles
2 2 mike
2 3 peter
2 3 mark
3 1 simon
3 1 bruce
建表
create table student(grade int, class int, name string) row format delimited fields terminated by ’ ';
加载数据
load data local inpath ‘/home/hivedemo/student’ into table student;
以班级为单位,将数据聚合到一行上
需要将多行数据放到一列上 - 行转列
select grade, class, concat_ws(’,’, collect_list(name)) from student group by grade, class;
- 聚合函数在计算的时候,如果碰到null,那么会自动跳过
- nvl(s1, s2):如果s1的值为null,则返回s2;反之,返回s1
10.10.Hive中的函数分类
a. UDF:User Defined Function — 用户自定义函数。特点:“一进一出”。输入一行数据,可以获取到一行结果。例如year,length等。
b. UDAF:User Defined Aggregation Function — 用户定义聚合函数。特点:“多进一出”。输入多行数据,可以获取到一行结果。例如:count,sum,avg等。
c. UDTF:User Defined Table-generated — Function — 用户定义表生成函数。特点:“一进多出”。输入一行数据,可以获取到多行输出结果。例如:explode
- 自定义函数
a. 自定义一个类继承类UDF类,覆盖evaluate方法,需要在evaluate方法中定义执行逻辑
b. 需要将这个逻辑打包成一个jar包,上传到Linux的任意路径下。
c. 需要在Hive中打添加jar包:
d. 在Hive中定义临时函数:
e. 调用函数。