Hive-三种自定义函数-UDTF

UDTF

udtf 是一输入多输出
其自定义方法为:
1.继承 GenericUDTF这个类
2.需要重写三个方法 initialize process close
(1)initialize:需要在这个方法中判断输入参数是否合法,以及设定输出有几列和输出的类型最后返回两个list数组分别为列名及列的类型;
(2)process :UDTF函数逻辑的具体实现最后用forward方法返回一个Object类型的参数;
因为我们的udtf函数是一输入多输出的但我们在具体实现的时候的forward的方法却只返回一个参数,这时我们可以使用Object类型的数组或者使用集合;

(3)close 最后在process方法结束时调用该方法
代码实现
3.为什么我们不可以像UDF函数那样把所有的逻辑写在一个方法内呢?
因为:我们的process方法返回值是void类型同时传入的参数为Object的数组所以我们不能判断传入参数的合法性,并且无法控制返回值类型;

package com.qqhru.gmall.hive;



import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructField;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.json.JSONArray;

import java.util.ArrayList;
import java.util.List;

public class MyUDTF extends GenericUDTF {

	@Override
	public void close() throws HiveException {

	}

	@Override
	public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
		//1.获取输入参数列表
		List<? extends StructField> allStructFieldRefs = argOIs.getAllStructFieldRefs();
		//2.判断输入参数的个数
		if (allStructFieldRefs.size() != 1){
			//如果参数不合法则抛出异常
			throw new UDFArgumentException("输入参数个数只能为一个");
		}
		//3.判断输入参数的类型
		//需要注意的是此时返回的类型为hive的类型而并非java的类型所以我们在判断的时候string是小写的s
		if (!"string".equals(allStructFieldRefs.get(0).getFieldObjectInspector().getTypeName())){
			throw new UDFArgumentException("参数类型只能为String");
		}
		ArrayList<String> fieldNames = new ArrayList<String>();
		ArrayList<ObjectInspector> fieldOIs = new ArrayList<>();
		//我们返回的有两列 列名分别为type和json
		fieldNames.add("type");
		fieldNames.add("json");
		//设定两列的参数类型
		fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
		fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

		return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,
				fieldOIs);
		
	}

	@Override
	public void process(Object[] args) throws HiveException {
		//因为我们在initialize方法中已经判断过输入参数的个数及类型所以我们可以直接使用
		String jsonArray = args[0].toString();
		
		JSONArray jsonArray1 = new JSONArray(jsonArray);
		//遍历jsonArray1数组
		for (int i = 0; i < jsonArray1.length(); i++) {
			String[] result = new String[2];
			result[0] = jsonArray1.getJSONObject(i).getString("tp");
			result[1] = jsonArray1.getString(i);
			
			//返回
			forward(result);
		}

	}

}

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值