spark中UDF，从文件中读取数据（两种方式），然后输出【java版纯代码】

最新推荐文章于 2024-03-24 14:34:12 发布

道法—自然

最新推荐文章于 2024-03-24 14:34:12 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81202973

版权

该Java代码展示了如何在Spark中读取JSON文件并创建DataFrame，包括两种读取方法，显示DataFrame内容，打印Schema信息，并通过UDF处理数据。注意，该代码不支持嵌套JSON，且加载后列按ASCII排序。

摘要由CSDN通过智能技术生成

package com.bjsxt;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;
/**
* 读取json格式的文件创建DataFrame
*
* 注意：json文件中不能嵌套json格式的内容
*
* 1.读取json格式两种方式
* 2.df.show默认显示前20行，使用df.show(行数)显示多行
* 3.df.javaRDD/(scala df.rdd) 将DataFrame转换成RDD
* 4.df.printSchema()显示DataFrame中的Schema信息
* 5.dataFram自带的API 操作DataFrame ，用的少
* 6.想使用sql查询，首先要将DataFrame注册成临时表：df.registerTempTable("jtable")，再使用sql,怎么使用sql?sqlContext.sql("sql语句")
* 7.不能读取嵌套的json文件
* 8.df加载过来之后将列按照ascii排序了
* @author root
*
*/

public class JavaRdd {
public static vo