如何修改 pyspark.saveAsTextFile默认存储文件格式

最新推荐文章于 2024-06-02 19:53:17 发布

ylfdrib

最新推荐文章于 2024-06-02 19:53:17 发布

阅读量4.3k

点赞数

分类专栏：运维

本文链接：https://blog.csdn.net/ylfdrib/article/details/88559577

版权

运维专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题

新集群执行pyspark程序时，保存文件saveAsTextFile()，默认成了.deflate压缩文件，导致textFile()方法不能正常读取。

解决方法

修改pyspark的默认写文件的格式：

找到自己机器上的HADOOP_CONF_DIR路径
修改配置 HADOOP_CONF_DIR/mapred-site.xml，注释掉输出格式的这段代码，就会默认保存成文本格式了。

  <property>
    <name>mapreduce.job.counters.groups.max</name>
    <value>50</value>
  </property>
<!--
<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
  </property>
  <property>
    <name>mapreduce.output.fileoutputformat.compress.type</name>
    <value>BLOCK</value>
  </property>
  <property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.DefaultCodec</value>
  </property>
  <property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>
  <property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
  </property>
-->
<property>
    <name>zlib.compress.level</name>
    <value>DEFAULT_COMPRESSION</value>
  </property>

如果不注释，把属性mapreduce.output.fileoutputformat.compress.codec改成org.apache.hadoop.io.compress.GzipCodec，就会默认.gz 压缩格式了。