Hive的函数

函数

  1. 在Hive中提供了非常丰富的函数用于对数据进行分析或者处理,还允许使用者自定义函数。
  2. 可以通过desc function 函数名来描述这个函数。
  3. 案例:提取年份。
    2020-12-25
    select year(‘2020-12-25’);

2020/12/25
方案一:替换
select year(regexp_replace(‘2020/12/25’, ‘/’, ‘-’));

方案二:切分
select cast(split(‘2020/12/25’, ‘/’)[0] as int);

  1. · 字符拼接
    原始数据
    music qq com
    mail 163 com
    news baidu com
    mail qq com

建表
create table webs(third string, second string, first string) row format delimited fields terminated by ’ ';

加载数据
load data local inpath ‘/home/hivedemo/webs’ into table webs;
#music.qq.com
select concat(third, ‘.’, second, ‘.’, first) from webs;
select concat_ws(’.’, third, second, first) from webs;
select concat_ws(’.’, *) from webs;

  1. 案例:邮箱提取
    方案一:提取
    select regexp_extract(‘langang@tedu.cn’, ‘(.)@(.)’, 2);

方案二:切分
select split(‘langang@tedu.cn’, ‘@’)[1];

  1. 列转行
    原始数据
    猎杀T34 动作/历史/战争
    隐形人 科幻/惊悚/恐怖
    电话 剧情/悬疑/惊悚
    风平浪静 剧情/爱情/犯罪

建表
create table movies(name string, kinds array) row format delimited fields terminated by ’ ’ collection items terminated by ‘/’;

加载数据
load data local inpath ‘/home/hivedemo/movie’ into table movies;

将一列数据转化为多行数据(炸裂) - 列转行
select name, k from movies lateral view explode(kinds) ktmp as k;

原始数据
joy 大方/开朗 打篮球/看电影
lucy 外向/阳光 看电影/听音乐
bob 开朗/活泼 听音乐/跑步
grace 阳光/幽默 看电影/健身

建表
create table person (name string, characters array, hobbies array) row format delimited fields terminated by ’ ’ collection items terminated by ‘/’;

加载数据
load data local inpath ‘/home/hivedemo/person’ into table person;

炸裂
select name, c, h from person lateral view explode(characters)ctmp as c lateral view explode(hobbies) htmp as h;

  1. 行转列
    原始数据
    1 tom
    1 sam
    1 lily
    1 jack
    2 lucy
    2 alex
    2 colin
    2 charles
    2 mike
    3 peter
    3 mark
    3 simon
    3 bruce

建表
create table student(class int, name string) row format delimited fields terminated by ’ ';

加载数据
load data local inpath ‘/home/hivedemo/student’ into table student;

以班级为单位,将数据聚合到一行上
需要将多行数据放到一列上 - 行转列
select class, concat_ws(’,’,collect_list(name)) from student group by class;

原始数据
1 1 tom
1 1 sam
1 2 lily
1 2 jack
1 2 lucy
2 1 alex
2 1 colin
2 2 charles
2 2 mike
2 3 peter
2 3 mark
3 1 simon
3 1 bruce

建表
create table student(grade int, class int, name string) row format delimited fields terminated by ’ ';

加载数据
load data local inpath ‘/home/hivedemo/student’ into table student;

以班级为单位,将数据聚合到一行上
需要将多行数据放到一列上 - 行转列
select grade, class, concat_ws(’,’, collect_list(name)) from student group by grade, class;

  1. 聚合函数在计算的时候,如果碰到null,那么会自动跳过
    在这里插入图片描述
  2. nvl(s1, s2):如果s1的值为null,则返回s2;反之,返回s1

10.10.Hive中的函数分类
a. UDF:User Defined Function — 用户自定义函数。特点:“一进一出”。输入一行数据,可以获取到一行结果。例如year,length等。
b. UDAF:User Defined Aggregation Function — 用户定义聚合函数。特点:“多进一出”。输入多行数据,可以获取到一行结果。例如:count,sum,avg等。
c. UDTF:User Defined Table-generated — Function — 用户定义表生成函数。特点:“一进多出”。输入一行数据,可以获取到多行输出结果。例如:explode

  1. 自定义函数
    a. 自定义一个类继承类UDF类,覆盖evaluate方法,需要在evaluate方法中定义执行逻辑
    b. 需要将这个逻辑打包成一个jar包,上传到Linux的任意路径下。
    c. 需要在Hive中打添加jar包:
    d. 在Hive中定义临时函数:
    e. 调用函数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值