函数,总体分成内建函数与自定义函数。
内建函数针对不同的数据类型有分成很多种,字符函数,数值函数,日期函数,转换函数等;
自定义函数是构建于这些基础内建函数之上,用自定义的逻辑实现返回结果的函数。针对返回结果又可分为单值函数和多值以及表值函数。
1 常看所有内建和自建的函数
show functions ;
注意:Hive 2.3.3 内建函数 271 个
describe function fnGetDetail
describe function extend fnGetDetail
2 使用 java 自定义函数
使用 Java. Scala 都可以编写 Hive 使用的自定义函数。只是在选择编译工具的时候,有些讲究。sbt 和 Maven 都是可以不用来生成 jar 的 IDE,将生成的的 Jar 放到 HDFS 上, Hive 就能应用了。
- 使用 Java 来编写简单的 Hive 自定义函数
3.1 Eclipse 建立一个简单的 Maven 项目
3.2 引用特定的几个 Hive / Hadoop jar
虽说是为 Hive 定制的自定义函数类,但库引用不仅仅是从 Hive 的源代码中来,也有可能是从 Hadoop 的基类库中寻找。
3.3 一段简单的大写转换函数:
package hive.function;
import org.apache.hadoop.hive.ql.exec.UDF ;
import org.apache.hadoop.io.Text ;
public class upperCase extends UDF{
public Text evaluate(final javax.xml.soap.Text s) {
if(s==null) {return null ;}
return new Text(s.toString().toLowerCase());
}
}
3.4 导出 eclipse, 导入 Hive class path:
hive> add jar /home/SparkAdmin/HiveFunctions/upperCase.jar
> ;
Added [/home/SparkAdmin/HiveFunctions/upperCase.jar] to class path
Added resources: [/home/SparkAdmin/HiveFunctions/upperCase.jar]
hive>
3.5 定义 Hive 函数
如果仅仅用 jar 中的类名来创建函数,是不够的:
hive> create temporary function upperCase as upperCase ;
MismatchedTokenException(24!=352)
at org.antlr.runtime.BaseRecognizer.recoverFromMismatchedToken(BaseRecognizer.java:617)
at org.antlr.runtime.BaseRecognizer.match(BaseRecognizer.java:115)
at org.apache.hadoop.hive.ql.parse.HiveParser.createFunctionStatement(HiveParser.java:24437)
at org.apache.hadoop.hive.ql.parse.HiveParser.ddlStatement(HiveParser.java:3962)
at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:2382)
at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1333)
at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:208)
at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:77)
at org.apache.hadoop.hive.ql.parse.ParseUtils.parse(ParseUtils.java:70)
at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:468)
at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1317)
at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1457)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1237)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1227)
at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:233)
at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:184)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:403)
at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:821)
at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:759)
at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:686)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.hadoop.util.RunJar.run(RunJar.java:226)
at org.apache.hadoop.util.RunJar.main(RunJar.java:141)
FAILED: ParseException line 1:39 mismatched input 'upperCase' expecting StringLiteral near 'as' in create function statement
必须带上全路径,也就是类的包路径:
hive> create temporary function upperCase as "hive.function.upperCase" ;
OK
Time taken: 0.013 seconds
hive> select upperCase(nameobject) as name_obj from tblobj2 limit 2 ;
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments 'nameobject': No matching method for class hive.function.upperCase with (string). Possible choices: _FUNC_(struct<>)
修改为以下的 Java 代码:
package hive.function;
import org.apache.hadoop.hive.ql.exec.UDF ;
import org.apache.hadoop.io.Text ;
public final class upperCase extends UDF{
public Text evaluate(final Text s) {
if(s==null) {return null ;}
return new Text(s.toString().toUpperCase());
}
public String evaluate( String s) {
if(s==null) {return null ;}
return new String(s.toString().toUpperCase());
}
}
再执行之前的步骤:
hive> select fnUpper2(nameobject) as nameobj from tblobj2 limit 2 ;
OK
PLAN_PERSIST_QUERY
NOTIFICATION_SEQUENCE
Time taken: 0.13 seconds, Fetched: 2 row(s)
hive> select nameobject from tblobj2 limit 2 ;
OK
plan_persist_query
NOTIFICATION_SEQUENCE
Time taken: 0.114 seconds, Fetched: 2 row(s)
hive>