udf，udaf，udtf区别与联系

最新推荐文章于 2024-06-12 13:57:58 发布

A-KASH

最新推荐文章于 2024-06-12 13:57:58 发布

阅读量1.6k

点赞数

文章标签： java 开发语言 hive 数据仓库

原文链接：https://blog.csdn.net/wyqwilliam/article/details/84500578

版权

1.udf:user defined function:用户定义（普通）函数，只对单行数值产生作用；由于udf不做聚合,所以它可任意嵌套。

特点：input:output=1:1

实例函数:md5,split,ltrim

应用场景：1:1的情况，比如md5...

实现方法：简单udf实现

extends UDF

方法名 evaluate

eg：

/** * @function 自定义UDF统计最小值

* @author John

*

*/

public class Min extends UDF {

public Double evaluate(Double a, Double b) {

if (a == null)

a = 0.0;

if (b == null)

b = 0.0;

if (a >= b) {

return b;

} else {

return a;

}

}

}

2.udaf:user defined aggregation function:用户定义聚合函数，可对多行数据产生作用；

特点: input:output=n:1

示例函数：sum,count,max,min......

实现方法涉及的两个类：AbstractGenericUDAFResolver、GenericUDAFEvaluator；

实现方法：extends UDAFResolver类,重写 getEvaluator() 方法；内部静态类实现接口UDAFEvaluator；继承GenericUDAFEvaluator类，生成实例给getEvaluator()；

五大方法（在GenericUDAFEvaluator类中，重写5大方法）：

①init:初始化map或是reduce需用到的变量。

②iterate:迭代处理每条数据，true。

③terminatePartial:相当于mr的combiner。

④merge:其输入一定是terminatePartial的输出。

⑤terminate:处理的是merge的结果。

eg:

SELECT

store_name, SUM(sales)

FROM

Store_Information

GROUP BY

store_name

HAVING

SUM(sales) > 1500

ORDER BY

SUM(sales);

关键字HAVING总要放在GROUP BY之后，ORDER BY之前；

3.udtf:user defined table function:用户定义表生成函数，用来解决输入一行输出多行；

特点:input:output=1:n

示例函数：explode、lateral view explore

实现方法：udf+explode;继承GenericUDTF类，重写initialize（返回输出行信息：列个数，类型）, process, close三方法；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
udf，udaf，udtf区别与联系

udf，udaf，udtf区别与联系,结合CSDN用户-LUK流与牛客上的回答，随手整理了一份笔记
复制链接

扫一扫

A-KASH CSDN认证博客专家 CSDN认证企业博客

码龄5年

0: 原创

167万+: 周排名

157万+: 总排名

1645: 访问

: 等级

3: 积分

1: 粉丝

0: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

udf，udaf，udtf区别与联系 1647

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。