Hive中提供了用户自定义函数,在自带的内嵌函数不能满足开发需求的时候,用户自定义函数是一个不错的选择,例如时间格式的转换等。
Hive是基于hadoop的MapReduce,提供HQL查询的数据仓库,Hive是一个开放的系统,很多内容都支持用户定制,下面介绍自定义UDF函数实现两个或者多个数相加的流程。
1).自定义类继承UDF,需要继承org.apache.hadoop.hive.ql.exec.UDF,并且需要实现evaluate函数;evaluate函数支持重载,这里我自定义的函数是实现传入的参数求他们的和。
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyUdf extends UDF {
public Double evaluate(Double ... a){
//这里一定要注意实现evaluate函数,不能更换名字
double total = 0;
for (int i = 0;i < a.length;i++){
if(a[i]!=null)
total += a[i];
}
return total;
}
}
2).对程序进行打包。
3).在左侧的target目录中将打包好的jar包发送到linux中(这里为了方便jar包的名字我改为funadd了)。然后add jar ’ jar包所在的目录/jar包名字’;
4).创建函数
create [temporary] function [dbname.]function_name AS class_name;这里我创建的是一个临时函数。在as的后面我写的是我的类名,如果你的类上面还有一个包的话要将包的名字也带上。
查看自定义函数的效果。