其他说明
目的是为了用spark做可视化分析
之前在网上找了一大堆处理csv表头的方法,
-
read.format.option:
spark新功能是可行,但是直接处理出来的数据结构是dataframe的,我是真的不太明白这个 -
textFile.filter(line => line !=header)
不知为何,我的python好像拒绝给我识别 >
解决
先用
df=spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").csv("hdfs:///shuju/taobao.csv")`
得到不含表头的dataframe结构
再写入一个新的csv
df.write.option("header", "false").csv("hdfs:///shuju/test1.csv")
最后得到的新csv就不含表头了,之后就完全可以正常用textFile再处理