如何修改 pyspark.saveAsTextFile默认存储文件格式
问题
新集群执行pyspark程序时,保存文件saveAsTextFile(),默认成了.deflate压缩文件,导致textFile()方法不能正常读取。
解决方法
修改pyspark的默认写文件的格式:
找到自己机器上的HADOOP_CONF_DIR路径
修改配置HADOOP_CONF_DIR/mapred-site.xml,注释掉输出格式的这段代码,就会默认保存成文本格式了。
...
原创
2019-03-14 19:30:26 ·
4345 阅读 ·
0 评论