hive 自定义 udf udtf 函数

4 篇文章 0 订阅
3 篇文章 0 订阅
hive 自定义UDF 函数
package com.atguigu.udf;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.hive.ql.exec.UDF;


/**
 * @author cherish
 * @create 2020-04-15 10:49
 */
public class BaseFieldUDF  extends UDF {

    public String evaluate(String line , String jsonkeysString) {

        //event name , even_json
        String[] split = line.split("\\|");
        String t = split[0];
        String jsonString = split[1];



        JSONObject jsonObject = JSON.parseObject(jsonString);
        String cm = jsonObject.getString("cm");

        JSONObject cmObject = JSON.parseObject(cm);
        String[] keys = jsonkeysString.split(",");
        StringBuffer buffer = new StringBuffer();
        for (String key : keys) {
            if (cmObject.containsKey(key)) {
                buffer.append(cmObject.getString(key)).append("\t");
            }else {
                buffer.append("\t");
            }
        }
        buffer.append(jsonObject.getString("et")).append("\t");
        buffer.append(t).append("\t");

        return buffer.toString();
    }

    public static void main(String[] args) {
        String line = "1541217850324|{\"cm\":{\"mid\":\"m7856\",\"uid\":\"u8739\",\"ln\":\"-74.8\",\"sv\":\"V2.2.2\",\"os\":\"8.1.3\",\"g\":\"P7XC9126@gmail.com\",\"nw\":\"3G\",\"l\":\"es\",\"vc\":\"6\",\"hw\":\"640*960\",\"ar\":\"MX\",\"t\":\"1541204134250\",\"la\":\"-31.7\",\"md\":\"huawei-17\",\"vn\":\"1.1.2\",\"sr\":\"O\",\"ba\":\"Huawei\"},\"ap\":\"weather\",\"et\":[{\"ett\":\"1541146624055\",\"en\":\"display\",\"kv\":{\"goodsid\":\"n4195\",\"copyright\":\"ESPN\",\"content_provider\":\"CNN\",\"extend2\":\"5\",\"action\":\"2\",\"extend1\":\"2\",\"place\":\"3\",\"showtype\":\"2\",\"category\":\"72\",\"newstype\":\"5\"}},{\"ett\":\"1541213331817\",\"en\":\"loading\",\"kv\":{\"extend2\":\"\",\"loading_time\":\"15\",\"action\":\"3\",\"extend1\":\"\",\"type1\":\"\",\"type\":\"3\",\"loading_way\":\"1\"}},{\"ett\":\"1541126195645\",\"en\":\"ad\",\"kv\":{\"entry\":\"3\",\"show_style\":\"0\",\"action\":\"2\",\"detail\":\"325\",\"source\":\"4\",\"behavior\":\"2\",\"content\":\"1\",\"newstype\":\"5\"}},{\"ett\":\"1541202678812\",\"en\":\"notification\",\"kv\":{\"ap_time\":\"1541184614380\",\"action\":\"3\",\"type\":\"4\",\"content\":\"\"}},{\"ett\":\"1541194686688\",\"en\":\"active_background\",\"kv\":{\"active_source\":\"3\"}}]}";
        String x = new BaseFieldUDF().evaluate(line, "mid,uid,vc,vn,l,sr,os,ar,md,ba,sv,g,hw,nw,ln,la,t");
        System.out.println(x);
    }

}

hive 自定义UDTF 函数

Hive中的UDTF是用户定义的表生成函数,可以将一行输入转换为多行输出。以下是Hive自定义UDTF函数的一些步骤: 1. 创建一个Java类,实现org.apache.hadoop.hive.ql.exec.UDTF接口。该接口需要实现initialize方法、process方法和close方法。 2. 在initialize方法中,可以获取函数的参数,例如输入列的名称和类型等。 3. 在process方法中,可以实现业务逻辑,并将结果输出到Collector对象中。 4. 在close方法中,可以进行一些清理工作。 5. 将Java类打包成jar文件,并上传到Hive中。 6.Hive中,使用ADD JAR命令加载jar文件。 7. 创建UDTF函数,使用CREATE FUNCTION命令,并指定INPUT格式和OUTPUT格式等参数。 8.Hive中使用UDTF函数,例如使用SELECT语句进行查询。 下面是一个简单的例子: ```java import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException; import org.apache.hadoop.hive.ql.exec.UDFReturnType; import org.apache.hadoop.hive.ql.exec.description.JavaUDF; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory; import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector; import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory; import java.util.ArrayList; @JavaUDF(description = "Split a string and output multiple rows", name = "explode_string", returnType = UDFReturnType.TABLE) public class ExplodeStringUDTF extends GenericUDTF { @Override public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException { if (args.length != 1) { throw new UDFArgumentLengthException("explode_string takes only one argument"); } if (!args[0].getCategory().equals(ObjectInspector.Category.PRIMITIVE)) { throw new UDFArgumentTypeException(0, "explode_string takes only primitive types"); } ArrayList<String> fieldNames = new ArrayList<String>(); ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>(); fieldNames.add("value"); fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector); return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs); } @Override public void process(Object[] args) throws HiveException { String input = args[0].toString(); String[] tokens = input.split(","); for (String token : tokens) { String[] fields = {token}; forward(fields); } } @Override public void close() throws HiveException { } } ``` 在Hive中,可以使用以下命令创建UDTF函数: ```sql CREATE FUNCTION explode_string AS 'com.example.ExplodeStringUDTF' USING JAR 'hdfs:///path/to/jar/file.jar'; ``` 使用以下命令查询数据: ```sql SELECT * FROM (SELECT 'a,b,c' AS input) s LATERAL VIEW explode_string(s.input) myTable AS myColumn; ``` 上述查询结果为: ``` myColumn ------- a b c ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值