文章目录
一、为什么要使用自定义函数
在业务需求中,hive内置的函数无法满足我们的需求,可以通过自定义函数来满足。
二、自定义函数的种类
UDF(User Defined Function),一进一出(输入一行,输出一行),比如:upper(),lowser()等。
UDFA(User Defined Aggregation Funcation),多进一出(输入多行,输出一行),比如avg()、sum()、max()、min()、count()等。
UDTF(User Defined Table Generating Functions),一进多出(输入一行,输出多行),比如collect_set()、collect_list()等。
三、创建自定义函数
1、创建一个maven工程(以idea为例)
2、编写方法 要求: 调用函数在输入的字符串之前添加上字符串“Hello”
2.1、 注意
1、方法要继承org.apache.hadoop.hive.ql.exec包下得UDF类
2、必须重写evaluate方法
3、打包
测试成功之后打包
可以参考maven打包
4、上传
将打好的包上传到虚拟机,记好目录
5、创建函数
5.1、创建临时函数
临时函数,作用于当前会话,会话结束,函数失效,生效期间所有库可以使用
第一步,在hive中添加jar包
第二步,创建函数
红框内填自己的方法的路径名
第三步,测试
成功
5.2、创建永久函数
永久函数,创建的库可以使用,其他库不可以
第一步,将jar包上传至hdfs
第二步,创建函数
第三步,测试