十四、Spark SQL内置函数

最新推荐文章于 2024-07-29 14:05:37 发布

zlwm000

最新推荐文章于 2024-07-29 14:05:37 发布

阅读量2.6k

点赞数

文章标签： spark sql hive

本文链接：https://blog.csdn.net/zlwm000/article/details/125327239

版权

本文详细介绍了Spark SQL的内置函数，包括10大类函数和两种使用方式，并通过示例演示了如何使用upper()函数。同时，文章讲解了自定义函数的概念，提供了创建UDF和UDAF的实例，以及开窗函数的应用，如使用row_number()进行分组求TOPN。

摘要由CSDN通过智能技术生成

Spark SQL内置函数

1、10类内置函数

Spark SQL内置了大量的函数，位于API org.apache.spark.sql.functions中。这些函数主要分为10类：UDF函数、聚合函数、日期函数、排序函数、非聚合函数、数学函数、混杂函数、窗口函数、字符串函数、集合函数，大部分函数与Hive中相同。

2、两种使用方式

使用内置函数有两种方式：一种是通过编程的方式使用；另一种是在SQL语句中使用。

（二）内置函数演示

读取HDFS上的people.json，得到数据帧，执行命令：val peopleDF = spark.read.json(“hdfs://master:9000/input/people.json”)
在这里插入图片描述
显示数据帧内容

导入Spark SQL内置函数，执行命令：import org.apache.spark.sql.functions._

1、通过编程方式使用内置函数upper()

利用upper()函数将姓名转成大写，执行命令：peopleDF.select(upper(col(“name”)).as(“name”)).show()
在这里插入图片描述
上述代码中，使用select()方法传入需要查询的列，使用as()方法指定列的别名。代码col(“name”)指定要查询的列，也可以使用 $name"代替，但是需要导入import spark.implicits._，执行命令：peopleDF.select(upper($

最低0.47元/天解锁文章

zlwm000

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
十四、Spark SQL内置函数

Spark SQL内置了大量的函数，位于API org.apache.spark.sql.functions中。这些函数主要分为10类：UDF函数、聚合函数、日期函数、排序函数、非聚合函数、数学函数、混杂函数、窗口函数、字符串函数、集合函数，大部分函数与Hive中相同。使用内置函数有两种方式：一种是通过编程的方式使用；另一种是在SQL语句中使用。读取HDFS上的people.json，得到数据帧，执行命令：val peopleDF = spark.read.json(“hdfs://master:9000/
复制链接

扫一扫