详解spark sql用户自定义函数:UDF与UDAF

本文介绍了在Spark SQL中如何使用用户自定义函数(UDF)和用户自定义聚合函数(UDAF)解决复杂业务场景。以一个实际问题为例,解释了如何创建UDF来解析JSON并提取字段,以及如何定义UDAF进行字符分组聚合。通过示例代码展示了UDF和UDAF的实现和执行结果,强调了在特定业务需求下,UDAF虽抽象但必不可少的角色。
摘要由CSDN通过智能技术生成

场景

UDAF = USER DEFINED AGGREGATION FUNCTION
 
 
 
  • 1
  • 1

上一篇文章已经介绍了spark sql的窗口函数,并知道Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了,我满足不了你,自己按照我的规范去定义一个sql函数,该怎么折腾就怎么折腾! 
例如,MySQL数据库中有一张task表,共两个字段taskid (任务ID)与taskParam(JSON格式的任务请求参数)。简单起见,这里只列出一条记录:

taskid 
  1
taskParam
 {
  "endAge":["50"],"endDate":["2016-06-21"],"startAge":["10"],"startDate":["2016-06-21"]}
 
 
 
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4

假设应用程序已经读取了mysql中这张表的记录,并通过 DateFrame注册成了一张临时表 task。问题来了:怎么获取taskParam中startAge的第一个值呢?

sqlContext.sql("select taskid,getJsonFieldUDF(taskParm,'startAge')")
 
 
 
  • 1
  • 1

这个时候,我们就需要自定义一个UDF函数了,取名getJsonFieldUDF。Java版本的代码大致如下:

package cool.pengych.sparker.product;
import org.apache.spark.sql.api.java.UDF2;
import com.alibaba.fastjson.JSONObject;
/**
 * 用户自定义函数
 * @author pengyucheng
 */
public class GetJsonObjectUDF implements UDF2<String,String,String>
{
    /**
     * 获取数组类型json字符串中某一字段的值
     */
    @Override
    public String call(String json, String field) throws Exception 
    {
        try
        {
            JSONObject jsonObject = JSONObject.parseObject(json);
            return jsonObje
Spark SQL中的自定义函数UDFUDAF、UDTF)是用户自己定义的函数,可以用于对数据进行处理和转换。下面是一些自定义函数的实例: 1. UDF(User-Defined Function):用户自定义函数,可以将一个或多个输入参数转换为输出值。例如,我们可以定义一个UDF来计算两个数的和: ``` import org.apache.spark.sql.functions.udf val sumUDF = udf((a: Int, b: Int) => a + b) val df = Seq((1, 2), (3, 4)).toDF("a", "b") df.select(sumUDF($"a", $"b")).show() ``` 2. UDAF(User-Defined Aggregate Function):用户自定义聚合函数,可以对一组数据进行聚合操作,例如求和、平均值等。例如,我们可以定义一个UDAF来计算一组数的平均值: ``` import org.apache.spark.sql.expressions.MutableAggregationBuffer import org.apache.spark.sql.expressions.UserDefinedAggregateFunction import org.apache.spark.sql.types._ class AvgUDAF extends UserDefinedAggregateFunction { // 输入数据类型 def inputSchema: StructType = StructType(StructField("value", DoubleType) :: Nil) // 聚合缓冲区数据类型 def bufferSchema: StructType = StructType( StructField("sum", DoubleType) :: StructField("count", LongType) :: Nil ) // 输出数据类型 def dataType: DataType = DoubleType // 是否是确定性的 def deterministic: Boolean = true // 初始化聚合缓冲区 def initialize(buffer: MutableAggregationBuffer): Unit = { buffer(0) = 0.0 buffer(1) = 0L } // 更新聚合缓冲区 def update(buffer: MutableAggregationBuffer, input: Row): Unit = { buffer(0) = buffer.getDouble(0) + input.getDouble(0) buffer(1) = buffer.getLong(1) + 1L } // 合并聚合缓冲区 def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = { buffer1(0) = buffer1.getDouble(0) + buffer2.getDouble(0) buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1) } // 计算最终结果 def evaluate(buffer: Row): Any = { buffer.getDouble(0) / buffer.getLong(1) } } val avgUDAF = new AvgUDAF() val df = Seq(1.0, 2.0, 3.0, 4.0).toDF("value") df.agg(avgUDAF($"value")).show() ``` 3. UDTF(User-Defined Table-Generating Function):用户自定义表生成函数,可以将一个或多个输入参数转换为一个表。例如,我们可以定义一个UDTF来将一个字符串拆分成多个单词: ``` import org.apache.spark.sql.Row import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.{explode, udf} import org.apache.spark.sql.types._ class SplitUDTF extends UserDefinedFunction { // 输入数据类型 def inputSchema: StructType = StructType(StructField("value", StringType) :: Nil) // 输出数据类型 def dataType: DataType = ArrayType(StringType) // 是否是确定性的 def deterministic: Boolean = true // 计算结果 def apply(value: Row): Any = { value.getString(0).split(" ") } } val splitUDTF = udf(new SplitUDTF(), ArrayType(StringType)) val df = Seq("hello world", "spark sql").toDF("value") df.select(explode(splitUDTF($"value"))).show() ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值