SparkSQL简单使用

最新推荐文章于 2024-07-10 17:54:35 发布

念婷

最新推荐文章于 2024-07-10 17:54:35 发布

阅读量588

点赞数 21

分类专栏：云计算应用开发文章标签： ajax 前端 javascript scala spark

本文链接：https://blog.csdn.net/weixin_51439828/article/details/138160872

版权

云计算应用开发专栏收录该内容

14 篇文章 0 订阅

订阅专栏

SparkSQL初识

任务描述

本关任务：编写一个sparksql基础程序。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

打印spark的版本号。

package com.educoder.bigData.sparksql;

import org.apache.spark.sql.AnalysisException;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

public class Test1 {

public static void main(String[] args) throws AnalysisException {

/********* Begin *********/

SparkSession spark = SparkSession

.builder()

.appName("Java Spark SQL基本示例")

.master("local")

.config("spark.some.config.option" , "some-value")

.getOrCreate();

//打印spark版本号

System.out.println(spark.version());

/********* End *********/

}

Dataset创建及使用

任务描述

本关任务：创建Dataset并使用

编程要求

根据提示，在右侧编辑器补充代码，读取people.json文件，过滤age为23的数据，并以表格形式显示前20行Dataset。

people.json文件内容如下:

{"age":21,"name":"张三", "salary":"3000"}
{"age":22,"name":"李四", "salary":"4500"}
{"age":23,"name":"王五", "salary":"7500"}

package com.educoder.bigData.sparksql;

import org.apache.spark.sql.AnalysisException;

import org.apache.spark.sql.SparkSession;

public class Test2 {

public static void main(String[] args) throws AnalysisException {

SparkSession spark = SparkSession

.builder()

.appName("test1")

.master("local")

.config("spark.some.config.option" , "some-value")

.getOrCreate();

/********* Begin *********/

//读取json，并将Dataset,并注册为SQL临时视图

spark.read().json("people.json").createOrReplaceTempView("people");

//以表格形式显示前20行Dataset

spark.sql("select * from people where age != 23").show();

/********* End *********/

}

Dataset自定义函数

任务描述

本关任务：编写Dataset自定义函数。

相关知识

为了完成本关任务，你需要掌握：

UserDefinedAggregateFunction介绍；
如何使用。

UserDefinedAggregateFunction

UserDefinedAggregateFunction是实现用户定义的聚合函数基础类，用户实现自定义无类型聚合函数必须扩展UserDefinedAggregateFunction 抽象类，相关方法如下：

方法及方法返回	描述
StructType bufferSchema()	StructType表示聚合缓冲区中值的数据类型。
DataType dataType()	UserDefinedAggregateFunction的返回值的数据类型
boolean deterministic()	如果此函数是确定性的，则返回true
Object evaluate(Row buffer)	根据给定的聚合缓冲区计算此UserDefinedAggregateFunction的最终结果
void initialize(MutableAggregationBuffer buffer)	初始化给定的聚合缓冲区
StructType inputSchema()	StructType表示此聚合函数的输入参数的数据类型。
void merge(MutableAggregationBuffer buffer1, Row buffer2)	合并两个聚合缓冲区并将更新的缓冲区值存储回buffer1
void update(MutableAggregationBuffer buffer, Row input)	使用来自输入的新输入数据更新给定的聚合缓冲区

如何使用

我们以计算员工薪水平均值的例子来说：首先在用户自定义函数的构造函数中，定义聚合函数的输入参数的数据类型和聚合缓冲区中值的数据类型。

//定义员工薪水的输入参数类型为LongType
List<StructField> inputFields = new ArrayList<StructField>();
inputFields.add(DataTypes.createStructField("inputColumn", DataTypes.LongType, true));
inputSchema = DataTypes.createStructType(inputFields);
//定义员工薪水总数、员工个数的参数类型
List<StructField> bufferFields = new ArrayList<StructField>();
bufferFields.add(DataTypes.createStructField("sum", DataTypes.LongType, true));
bufferFields.add(DataTypes.createStructField("count", DataTypes.LongType, true));
bufferSchema = DataTypes.createStructType(bufferFields);

对聚合缓冲区中值设置初始值。

@Override
public void initialize(MutableAggregationBuffer buffer) {
// TODO Auto-generated method stub
buffer.update(0, 0L);
buffer.update(1, 0L);
}

把自定义函数的输入薪水数据转化为定义的聚合缓冲区的值（薪水总数、员工个数），并更新。

@Override
public void update(MutableAggregationBuffer buffer, Row input) {
if (!input.isNullAt(0)) {
long updatedSum = buffer.getLong(0) + input.getLong(0);
long updatedCount = buffer.getLong(1) + 1;
buffer.update(0, updatedSum);
buffer.update(1, updatedCount);
}
}

把多个聚合缓冲区的值进行合并。

@Override
public void merge(MutableAggregationBuffer buffer1, Row buffer2) {
// TODO Auto-generated method stub
long mergedSum = buffer1.getLong(0) + buffer2.getLong(0);
long mergedCount = buffer1.getLong(1) + buffer2.getLong(1);
buffer1.update(0, mergedSum);
buffer1.update(1, mergedCount);
}

最后通过聚合缓冲区的值计算输出结果。

@Override
public Object evaluate(Row buffer) {
// TODO Auto-generated method stub
return ((double) buffer.getLong(0)) / buffer.getLong(1);
}

就此自定义函数就开发完了，通过SparkSession的udf()方法会返回注册用户定义函数的方法集合UDFRegistration 通过UDFRegistration调用register方法进行自定义函数注册，使用如下：

// 注册自定义函数myAverage
spark.udf().register("myAverage", new MyAverage());
//读取json文件
spark.read().json("people.json").createOrReplaceTempView("people");
//使用自定义函数计算薪水平均值
spark.sql("SELECT myAverage(salary) as average_salary FROM people").show();
// +--------------+
// |average_salary|
// +--------------+
// | 5000|
// +--------------+

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，编写自定义函数类MyAverage，用来计算用户薪水平均值，平台已提供了最后的实现：

spark.udf().register("myAverage", new MyAverage());
spark.read().json("people.json").createOrReplaceTempView("people");
spark.sql("SELECT myAverage(salary) as average_salary FROM people").show();

package com.educoder.bigData.sparksql;

import java.util.ArrayList;

import java.util.List;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.expressions.MutableAggregationBuffer;

import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;

import org.apache.spark.sql.types.DataType;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

public class MyAverage extends UserDefinedAggregateFunction {

private static final long serialVersionUID = 1L;

private StructType inputSchema;

private StructType bufferSchema;

public MyAverage() {

/********* Begin *********/

List<StructField> inputFields = new ArrayList<StructField>();

inputFields.add(DataTypes.createStructField("inputColumn", DataTypes. LongType, true));

inputSchema = DataTypes.createStructType(inputFields);

List<StructField> bufferFields = new ArrayList<StructField>();

bufferFields.add(DataTypes.createStructField("sum", DataTypes.LongType, true));

bufferFields.add(DataTypes.createStructField("count", DataTypes.LongType, true));

bufferSchema = DataTypes.createStructType(bufferFields);

/********* End *********/

}

@Override

public StructType bufferSchema() {

/********* Begin *********/

return bufferSchema;

/********* End *********/

}

@Override

public DataType dataType() {

/********* Begin *********/

return DataTypes.DoubleType;

/********* End *********/

}

@Override

public boolean deterministic() {

// TODO Auto-generated method stub

return true;

}

@Override

public Object evaluate(Row buffer) {

/********* Begin *********/

return ((double) buffer.getLong(0)) / buffer.getLong(1);

/********* End *********/

}

@Override

public void initialize(MutableAggregationBuffer buffer) {

/********* Begin *********/

buffer.update(0, 0L);

buffer.update(1, 0L);

/********* End *********/

}

@Override

public StructType inputSchema() {

/********* Begin *********/

return inputSchema;

/********* End *********/

}

@Override

public void merge(MutableAggregationBuffer buffer1, Row buffer2) {

/********* Begin *********/

long mergedSum = buffer1.getLong(0) + buffer2.getLong(0);

long mergedCount = buffer1.getLong(1) + buffer2.getLong(1);

buffer1.update(0, mergedSum);

buffer1.update(1, mergedCount);

/********* End *********/

}

@Override

public void update(MutableAggregationBuffer buffer, Row input) {

/********* Begin *********/

if (!input.isNullAt(0)) {

long updatedSum = buffer.getLong(0) + input.getLong(0);

long updatedCount = buffer.getLong(1) + 1;

buffer.update(0, updatedSum);

buffer.update(1, updatedCount);

}

/********* End *********/

}

念婷

关注

21
点赞
踩
26

收藏

觉得还不错? 一键收藏
3
评论
SparkSQL简单使用

Spark SQL是用来操作结构化和半结构化数据的接口。当每条存储记录共用已知的字段集合，数据符合此条件时，Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说，Spark SQL提供了以下三大功能： (1)Spark SQL可以从各种结构化数据源（例如JSONParquet等）中读取数据。(2)Spark SQL不仅支持在Spark程序内使用SQL语句进行数据查询，也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器（JDBC/ODBC）连接。
复制链接

扫一扫