UDTF
udtf 是一输入多输出
其自定义方法为:
1.继承 GenericUDTF这个类
2.需要重写三个方法 initialize process close
(1)initialize:需要在这个方法中判断输入参数是否合法,以及设定输出有几列和输出的类型最后返回两个list数组分别为列名及列的类型;
(2)process :UDTF函数逻辑的具体实现最后用forward方法返回一个Object类型的参数;
因为我们的udtf函数是一输入多输出的但我们在具体实现的时候的forward的方法却只返回一个参数,这时我们可以使用Object类型的数组或者使用集合;
(3)close 最后在process方法结束时调用该方法
代码实现
3.为什么我们不可以像UDF函数那样把所有的逻辑写在一个方法内呢?
因为:我们的process方法返回值是void类型同时传入的参数为Object的数组所以我们不能判断传入参数的合法性,并且无法控制返回值类型;
package com.qqhru.gmall.hive;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructField;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.json.JSONArray;
import java.util.ArrayList;
import java.util.List;
public class MyUDTF extends GenericUDTF {
@Override
public void close() throws HiveException {
}
@Override
public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
//1.获取输入参数列表
List<? extends StructField> allStructFieldRefs = argOIs.getAllStructFieldRefs();
//2.判断输入参数的个数
if (allStructFieldRefs.size() != 1){
//如果参数不合法则抛出异常
throw new UDFArgumentException("输入参数个数只能为一个");
}
//3.判断输入参数的类型
//需要注意的是此时返回的类型为hive的类型而并非java的类型所以我们在判断的时候string是小写的s
if (!"string".equals(allStructFieldRefs.get(0).getFieldObjectInspector().getTypeName())){
throw new UDFArgumentException("参数类型只能为String");
}
ArrayList<String> fieldNames = new ArrayList<String>();
ArrayList<ObjectInspector> fieldOIs = new ArrayList<>();
//我们返回的有两列 列名分别为type和json
fieldNames.add("type");
fieldNames.add("json");
//设定两列的参数类型
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,
fieldOIs);
}
@Override
public void process(Object[] args) throws HiveException {
//因为我们在initialize方法中已经判断过输入参数的个数及类型所以我们可以直接使用
String jsonArray = args[0].toString();
JSONArray jsonArray1 = new JSONArray(jsonArray);
//遍历jsonArray1数组
for (int i = 0; i < jsonArray1.length(); i++) {
String[] result = new String[2];
result[0] = jsonArray1.getJSONObject(i).getString("tp");
result[1] = jsonArray1.getString(i);
//返回
forward(result);
}
}
}