10. Hive技术之自定义函数

最新推荐文章于 2025-10-25 09:18:12 发布

原创最新推荐文章于 2025-10-25 09:18:12 发布 · 321 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hive

Hive 专栏收录该内容

13 篇文章

订阅专栏

本文详细介绍Hive自定义函数（UDF、UDAF、UDTF）的开发和使用，包括函数创建、调用及注意事项，适合大数据处理场景。

文章目录

Hive技术之自定义函数

1. Hive系统内置函数

-- 查看系统自带的函数
show functions;

-- 显示自带的函数的用法
desc function split;

-- 细显示自带的函数的用法
desc function extended split;

在这里插入图片描述

2. 自定义函数

Hive 自带了一些函数，比如：max/min 等，但是数量有限，自己可以通过自定义 UDF来方便的扩展。

当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义
函数（UDF：user-defined function）。

根据用户自定义函数类别分为以下三种：

UDF（User-Defined-Function）一进一出
UDAF（User-Defined Aggregation Function）聚集函数，多进一出
类似于：count/max/min

UDTF（User-Defined Table-Generating Functions）一进多出
如 lateral view explore()

官方文档地址

编程步骤

继承 org.apache.hadoop.hive.ql.UDF
需要实现 evaluate 函数；evaluate 函数支持重载；
在 hive 的命令行窗口创建函数
添加 jar add jar linux_jar_path
创建 functioncreate [temporary] function [dbname.]function_name AS class_name;

在 hive 的命令行窗口删除函数 Drop [temporary] function [if exists] [dbname.]function_name;

注意事项

UDF 必须要有返回类型，可以返回 null，但是返回类型不能为 void;

3. 自定义UDF函数

创建一个 Maven工程 HiveFun

导入依赖

    <dependencies>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>1.2.1</version>
        </dependency>
    </dependencies>

有以上报错，需要下载pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar放到自己的Maven仓库中…

创建一个类HiveFun

package com.atguigu;
import org.apache.hadoop.hive.ql.exec.UDF;
/**
 * @Date 2020/8/5 13:27
 * @Version 10.21
 * @Author DuanChaojie
 */
public class HiveFun extends UDF {

    public int evaluate(int data){
        return data + 10;
    }

    public int evaluate(int data1,int data2){
        return data1 + data2 + 10;
    }
}

打成 jar 包上传到服务器/opt/module/hive/lib/HiveFun-1.0-SNAPSHOT.jar

创建函数与开发好的 java class 关联

create function HiveFun as "com.atguigu.HiveFun";

即可在 hql 中使用自定义的函数

-- 删除自定义的UDF函数
drop function if exists hive.HiveFun;

4. 自定义UDTF函数

需求说明：自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词，例如：

-- 使用HiveFunUDTF函数
select HiveFunUDTF("hello,world,hadoop,hive")
-- 结果：
hello
world
hadoop
hive

HiveFunUDTF类代码实现

package com.atguigu.udtf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;
import java.util.List;

/**
 * @Date 2020/8/5 15:04
 * @Version 10.21
 * @Author DuanChaojie
 */
public class HiveFunUDTF extends GenericUDTF {
    @Override
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
        // 1.定义输出数据的列名和类型
        List<String> fieldNames = new ArrayList<String>();
        List<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
        // 2.天假输出数据的列名和类型
        fieldNames.add("result");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);
    }

    private List<String> outList = new ArrayList<String>();

    @Override
    public void process(Object[] args) throws HiveException {
        // 1.获取要处理的数据
        String data = args[0].toString();

        // 2.获取数据传入的第二个参数，此处是分隔符
        String splitKey = args[1].toString();

        // 3.将原始数据按照传入的分隔符进行切分
        String[] fields = data.split(splitKey);

        // 4.遍历切分后的结果，并写出
        for (String field : fields) {
            // 集合为复用的，首先清空集合
            outList.clear();
            // 将每一个单词添加至集合
            outList.add(field);
            // 将集合的内容写出
            forward(outList);
        }

    }

    @Override
    public void close() throws HiveException {

    }
}

打成 jar 包上传到服务器/opt/module/hive/lib/HiveFunUDTF-1.0-SNAPSHOT.jar

将 jar 包添加到 hive 的 classpath 下

add jar /opt/module/hive/lib/HiveFunUDTF-1.0-SNAPSHOT.jar;