Hive 自定义函数 UDF UDAF UDTF

本文详细介绍了UDF(用户定义函数)、UDTF(表生成函数)和UDAF(聚合函数)在Hive中的应用,包括自定义实现步骤、jar包管理、创建和销毁临时函数,以及它们在数据处理中的实际用途。了解如何利用这些函数提升Hive的数据处理能力。
摘要由CSDN通过智能技术生成

UDF函数

UDF:用户定义(普通)函数,只对单行数值产生作用;UDF只能实现一进一出的操作。UDF函数自定义实现步骤如下:

  1. 定义UDF函数,如计算两个数之和

    package com.starzy.udf;
    
    import org.apache.hadoop.hive.ql.exec.UDF;
    
    public class UDFDemo extends UDF {
        // 自定义函数实现逻辑,重载evaluate
        public String evaluate(String in){
            return in.toLowerCase();
        }
    
        public int evaluate(int a,int b){
            return a + b;
        }
    }
    
    
  2. 把程序打成jar包

  3. 添加jar包到hive中

    hive> add jar /root/data/hive/learn-hive-1.0.jar;
    
  4. 创建临时函数并测试

    hive> create temporary function myudf as "com.starzy.udf.UDFDemo";
    -- 执行测试
    hive> select myudf('ABC');
    hive> select myudf(1,2);
    
  5. 销毁临时函数

UDTF函数

UDTF:User-Defined Table-Generating Functions,用户定义表生成函数,用来解决输入一行输出多行,继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。初始化完成后,会调用process方法,真正的处理过程在process函数中,在process中,每一次forward()调用产生一行;如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。最后close()方法调用,对需要清理的方法进行清理。

例子:切分”key:value;key:value”字符串,返回结果为key, value两个字段。

 import java.util.ArrayList;

 import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
 import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
 import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
 import org.apache.hadoop.hive.ql.metadata.HiveException;
 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
 import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
 import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

 public class ExplodeMap extends GenericUDTF{

     @Override
     public void close() throws HiveException {
         // TODO Auto-generated method stub    
     }

     @Override
     public StructObjectInspector initialize(ObjectInspector[] args)
             throws UDFArgumentException {
         if (args.length != 1) {
             throw new UDFArgumentLengthException("ExplodeMap takes only one argument");
         }
         if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
             throw new UDFArgumentException("ExplodeMap takes string as a parameter");
         }

         ArrayList<String> fieldNames = new ArrayList<String>();
         ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
         fieldNames.add("col1");
         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
         fieldNames.add("col2");
         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);
     }

     @Override
     public void process(Object[] args) throws HiveException {
         String input = args[0].toString();
         String[] test = input.split(";");
         for(int i=0; i<test.length; i++) {
             try {
                 String[] result = test[i].split(":");
                 forward(result);
             } catch (Exception e) {
                 continue;
             }
         }
     }
 }

配置添加UDTF自定义步骤

  1. 把程序打成jar包
  2. 添加jar包:add jar /run/jar/udf_test.jar;
  3. 创建临时函数:CREATE TEMPORARY FUNCTION explode_map AS ‘com.starzy.hive.udtf.ExplodeMap’;
  4. 销毁临时函数:hive> DROP TEMPORARY FUNCTION add_example;

udtf的使用:

UDTF有两种使用方法,一种直接放到select后面,一种和lateral view一起使用。

create table src(properties String);
	
	vi src.txt
	key1:value1;key2:value2;
	
load data local inpath '/root/hivedata/src.txt' into table src;

1:直接select中使用

select explode_map(properties) as (col1,col2) from src;

不可以添加其他字段使用
select a, explode_map(properties) as (col1,col2) from src;

不可以嵌套调用
select explode_map(explode_map(properties)) from src;

不可以和group by/cluster by/distribute by/sort by一起使用
select explode_map(properties) as (col1,col2) from src group by col1, col2;
 


2:和lateral view一起使用

select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;

UDAPF函数

  • UDAF:User- Defined Aggregation Funcation;用户定义聚合函数,可对多行数据产生作用;

    等同与SQL中常用的SUM(),AVG(),也是聚合函数;

    UDAF实现多进一出

    UDAF实现有简单与通用两种方式:

    import org.apache.hadoop.hive.ql.exec.UDAF;
    import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
    import org.apache.hadoop.io.IntWritable;
    
    //UDAF是输入多个数据行,产生一个数据行
    //用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类
    public class MaxiNumber extends UDAF {
        public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator {
            // 最终结果
            private IntWritable result;
    
            // 负责初始化计算函数并设置它的内部状态,result是存放最终结果的
            @Override
            public void init() {
                result = null;
            }
    
            // 每次对一个新值进行聚集计算都会调用iterate方法
            public boolean iterate(IntWritable value) {
                if (value == null)
                    return false;
                if (result == null)
                    result = new IntWritable(value.get());
                else
                    result.set(Math.max(result.get(), value.get()));
                return true;
            }
    
            // Hive需要部分聚集结果的时候会调用该方法
            // 会返回一个封装了聚集计算当前状态的对象
            public IntWritable terminatePartial() {
                return result;
            }
    
            // 合并两个部分聚集值会调用这个方法
            public boolean merge(IntWritable other) {
                return iterate(other);
            }
    
            // Hive需要最终聚集结果时候会调用该方法
            public IntWritable terminate() {
                return result;
            }
        }
    }
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用SparkSQL和Hive API,可以通过以下步骤实现用户自定义函数UDF)、聚合函数UDAF)和表生成函数UDTF): 1. 编写自定义函数的代码,例如: ``` // UDF def myUDF(str: String): Int = { str.length } // UDAF class MyUDAF extends UserDefinedAggregateFunction { override def inputSchema: StructType = StructType(StructField("value", StringType) :: Nil) override def bufferSchema: StructType = StructType(StructField("count", IntegerType) :: Nil) override def dataType: DataType = IntegerType override def deterministic: Boolean = true override def initialize(buffer: MutableAggregationBuffer): Unit = { buffer(0) = 0 } override def update(buffer: MutableAggregationBuffer, input: Row): Unit = { buffer(0) = buffer.getInt(0) + input.getString(0).length } override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = { buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0) } override def evaluate(buffer: Row): Any = { buffer.getInt(0) } } // UDTF class MyUDTF extends GenericUDTF { override def initialize(args: Array[ConstantObjectInspector]): StructObjectInspector = { // 初始化代码 } override def process(args: Array[DeferedObject]): Unit = { // 处理代码 } override def close(): Unit = { // 关闭代码 } } ``` 2. 将自定义函数注册到SparkSQL或Hive中,例如: ``` // SparkSQL中注册UDF spark.udf.register("myUDF", myUDF _) // Hive中注册UDF hiveContext.sql("CREATE TEMPORARY FUNCTION myUDF AS 'com.example.MyUDF'") // Hive中注册UDAF hiveContext.sql("CREATE TEMPORARY FUNCTION myUDAF AS 'com.example.MyUDAF'") // Hive中注册UDTF hiveContext.sql("CREATE TEMPORARY FUNCTION myUDTF AS 'com.example.MyUDTF'") ``` 3. 在SQL语句中使用自定义函数,例如: ``` -- 使用SparkSQL中的UDF SELECT myUDF(name) FROM users -- 使用Hive中的UDF SELECT myUDF(name) FROM users -- 使用Hive中的UDAF SELECT myUDAF(name) FROM users GROUP BY age -- 使用Hive中的UDTF SELECT explode(myUDTF(name)) FROM users ``` 以上就是使用SparkSQL和Hive API实现用户自定义函数UDFUDAFUDTF)的步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值