详解spark sql用户自定义函数:UDF与UDAF

最新推荐文章于 2024-07-31 21:45:00 发布

打怪的蚂蚁

最新推荐文章于 2024-07-31 21:45:00 发布

阅读量1.2w

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/xgjianstart/article/details/54956413

版权

本文介绍了在Spark SQL中如何使用用户自定义函数(UDF)和用户自定义聚合函数(UDAF)解决复杂业务场景。以一个实际问题为例，解释了如何创建UDF来解析JSON并提取字段，以及如何定义UDAF进行字符分组聚合。通过示例代码展示了UDF和UDAF的实现和执行结果，强调了在特定业务需求下，UDAF虽抽象但必不可少的角色。

摘要由CSDN通过智能技术生成

场景

UDAF = USER DEFINED AGGREGATION FUNCTION
 
 
 
  1
 
 
 
 
  1

上一篇文章已经介绍了spark sql的窗口函数，并知道Spark sql提供了丰富的内置函数供猿友们使用，辣为何还要用户自定义函数呢？实际的业务场景可能很复杂，内置函数hold不住，所以spark sql提供了可扩展的内置函数接口：哥们，你的业务太变态了，我满足不了你，自己按照我的规范去定义一个sql函数，该怎么折腾就怎么折腾！
例如，MySQL 数据库中有一张task表，共两个字段taskid （任务ID）与taskParam（JSON格式的任务请求参数）。简单起见，这里只列出一条记录：

taskid 
  1
taskParam
 {
  "endAge":["50"],"endDate":["2016-06-21"],"startAge":["10"],"startDate":["2016-06-21"]}
 
 
 
  1
  2
  3
  4
 
 
 
 
  1
  2
  3
  4

假设应用程序已经读取了mysql中这张表的记录，并通过 DateFrame注册成了一张临时表 task。问题来了：怎么获取taskParam中startAge的第一个值呢？

sqlContext.sql("select taskid,getJsonFieldUDF(taskParm,'startAge')")
 
 
 
  1
 
 
 
 
  1

这个时候，我们就需要自定义一个UDF函数了，取名getJsonFieldUDF。Java版本的代码大致如下：

package cool.pengych.sparker.product;
import org.apache.spark.sql.api.java.UDF2;
import com.alibaba.fastjson.JSONObject;
/**
 * 用户自定义函数
 * @author pengyucheng
 */
public class GetJsonObjectUDF implements UDF2<String,String,String>
{
    /**
     * 获取数组类型json字符串中某一字段的值
     */
    @Override
    public String call(String json, String field) throws Exception 
    {
        try
        {
            JSONObject jsonObject = JSONObject.parseObject(json);
            return jsonObje