spark读取文件时,如果是excel的结构型数据,经常会遇到有表头的情况
下面列出了三种方式去掉表头
- filter判断过滤
val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
.map(x => x.split(",")).filter(!_.contains("id")).cache()
- mapPartitions操作时迭代删除首行,效率最高
val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
.mapPartitionsWithIndex((x,y)=>{
if (x==0) y.drop(1)
y.map(z=>{
val ss = z.split(",")
(ss(0),ss(1),ss(3),ss(4),ss(5),ss(6),ss(7),ss(8),ss(9),ss(10),ss(11),ss(12))
})
})
- 正则+偏函数过滤
val r = "(\"\\d.*?)".r
sc.textFile("文件路径").collect({
case r(x) =>x
}).foreach(println)
- 如果是csv文件,则可以用spark.read.format(“csv”).option(“header”,“true”),直接把首行作为schema表信息
val spark = SparkSession.builder().master("local[*]").appName("cl").getOrCreate()
val df: DataFrame = spark.read.format("csv").option("header", "true")
.load("hdfs://single:9000/events/data/users.csv").cache()
df.show(3)