（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

最新推荐文章于 2024-05-26 00:15:00 发布

道法—自然

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81209911

版权

这个Java程序展示了如何使用Apache Spark的DataFrame API从JSON文件读取数据，将其显示出来，然后将DataFrame写入Parquet文件。之后，程序会从写入的Parquet文件中重新加载数据并再次显示。代码涵盖了SaveMode的不同选项，包括Overwrite、Append和Ignore。

摘要由CSDN通过智能技术生成

package com.bjsxt;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;

public class CreateDFFromParquet {
   public static void main(String[] args) {
       SparkConf conf=new SparkConf().setAppName("test").setMaster("local");
       JavaSparkContext sc=new JavaSparkContext(conf);
       SQLContext sqlContext=new SQLContext(sc);
       DataFrame df = sqlContext.read().format("json").load("./json");
       df.show();
       /**
       * 将DataFrame保存成parquent文件
       * SaveMode指定存储文件时的保存模式
       * OverWrite:覆盖
       * Append:追加
       * ErrorIfExist:如果存在就报错
       * Ignore:如果存在就忽略
       * 保存成parquent文件有以下两种方式
       */<

最低0.47元/天解锁文章

道法—自然

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;import org.apac...
复制链接

扫一扫