有关spark集群保存dataframe数据成csv,parquet文件

最新推荐文章于 2023-05-01 13:03:26 发布

weixin_44178886

最新推荐文章于 2023-05-01 13:03:26 发布

阅读量910

点赞数

文章标签： spark 大数据 hadoop

本文链接：https://blog.csdn.net/weixin_44178886/article/details/126996084

版权

 dataFrame.repartition(1).write.
                option("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false").
                option("header", is_save_df_header).csv(local_path);

repartition要求把最后生成的csv成为多少个，默认是会有多个，设置为1代表生成1个csv文件，local_path只是路径，生成的csv,parquet文件都是会自动有名字的。该代码在本地运行是会将csv,parquet放到本地地址的。如果放到集群里边就会出现：本地文件死活找不到的情况。文件会在spark集群的hdfs上。