rdd读取文件去掉表头的几种方式

spark读取文件时,如果是excel的结构型数据,经常会遇到有表头的情况
下面列出了三种方式去掉表头

  • filter判断过滤
        val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
          .map(x => x.split(",")).filter(!_.contains("id")).cache()
  • mapPartitions操作时迭代删除首行,效率最高
    val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
      .mapPartitionsWithIndex((x,y)=>{
        if (x==0) y.drop(1)
        y.map(z=>{
          val ss = z.split(",")
          (ss(0),ss(1),ss(3),ss(4),ss(5),ss(6),ss(7),ss(8),ss(9),ss(10),ss(11),ss(12))
        })
      })
  • 正则+偏函数过滤
    val r = "(\"\\d.*?)".r
    sc.textFile("文件路径").collect({
        case r(x) =>x
    }).foreach(println)
  • 如果是csv文件,则可以用spark.read.format(“csv”).option(“header”,“true”),直接把首行作为schema表信息
    val spark = SparkSession.builder().master("local[*]").appName("cl").getOrCreate()
    val df: DataFrame = spark.read.format("csv").option("header", "true")
      .load("hdfs://single:9000/events/data/users.csv").cache()
    df.show(3)
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值