Spark自定义函数(UDF、UDAF、UDTF)

最新推荐文章于 2022-09-09 15:11:42 发布

小财迷，嘻嘻

最新推荐文章于 2022-09-09 15:11:42 发布

阅读量976

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_48185778/article/details/109763835

版权

1、自定义标准函数(UDF)

在D:\test\t\目录下有文件hobbies.txt，文件内容：

alice	jogging,Coding,cooking
lina	travel,dance

需求：用户行为喜好个数统计
要求输出格式：

alice	jogging,Coding,cooking	3
lina	travel,dance			2

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   DataFrame, SparkSession}

object SparkUDFDemo {
   
  //样例类
  case class Hobbies(name:String,hobbies: String)

  def main(args: Array[String]): Unit = {
   
    val spark :SparkSession= SparkSession.builder()
      .master("local[1]")
      .appName("SparkUDFDemo")
      .getOrCreate()
 	val sc:SparkContext = spark.sparkContext

    //需要手动导入一个隐式转换，否则RDD无法转换成DF
    import spark.implicits._
   
    val rdd:RDD[String] = sc.textFile("D:\\test\\t\\hobbies.txt")
    val df:DataFrame = rdd.map(x=>x.split("\t")).map(x=>Hobbies(x(0),x(1))).toDF()

    //df.printSchema()
    //df.show()

    df.registerTempTable("hobbies")
    //注册自定义函数，注意是匿名函数
    spark.udf.register("hoby_num",(s:String)=>s.split(",").size)

    val frame:DataFrame = spark.sql("select name,hobbies,hoby_num(hobbies) as hobnum from hobbies")
    frame.show()
  }
}

输出：

+-----+--------------------+------+
| name|             hobbies|hobnum|
+-----+----------

最低0.47元/天解锁文章

小财迷，嘻嘻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark自定义函数(UDF、UDAF、UDTF)

目录1、自定义标准函数(UDF)2、自定义聚合函数(UDAF)3、自定义表生成函数(UDTF)Spark提供大量内置函数供开发者使用，也可以自定义函数使用。Spark自定义函数步骤：1、定义函数2、注册函数SparkSession.udf.register()：只在sql()中有效functions.udf()：对DataFrame API均有效3、函数调用1、自定义标准函数(UDF)在D:\test\t\目录下有文件hobbies.txt，文件内容：alice jogging,Codi
复制链接

扫一扫