rdd读取文件去掉表头的几种方式

最新推荐文章于 2023-06-25 13:13:35 发布

xiaoxaoyu

最新推荐文章于 2023-06-25 13:13:35 发布

阅读量2.7k

点赞数 4

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/xiaoxaoyu/article/details/114316308

版权

Spark 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

spark读取文件时，如果是excel的结构型数据，经常会遇到有表头的情况
下面列出了三种方式去掉表头

filter判断过滤

        val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
          .map(x => x.split(",")).filter(!_.contains("id")).cache()

mapPartitions操作时迭代删除首行，效率最高

    val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
      .mapPartitionsWithIndex((x,y)=>{
        if (x==0) y.drop(1)
        y.map(z=>{
          val ss = z.split(",")
          (ss(0),ss(1),ss(3),ss(4),ss(5),ss(6),ss(7),ss(8),ss(9),ss(10),ss(11),ss(12))
        })
      })

正则+偏函数过滤

    val r = "(\"\\d.*?)".r
    sc.textFile("文件路径").collect({
        case r(x) =>x
    }).foreach(println)

如果是csv文件，则可以用spark.read.format(“csv”).option(“header”,“true”)，直接把首行作为schema表信息

    val spark = SparkSession.builder().master("local[*]").appName("cl").getOrCreate()
    val df: DataFrame = spark.read.format("csv").option("header", "true")
      .load("hdfs://single:9000/events/data/users.csv").cache()
    df.show(3)

xiaoxaoyu

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
rdd读取文件去掉表头的几种方式

spark读取文件时，如果是excel的结构型数据，经常会遇到有表头的情况下面列出了三种方式去掉表头filter判断过滤 val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", "")) .map(x => x.split(",")).filter(!_.contains("id")).cache()mapPartitions操作时迭代删除首行，效率最高 val rdd = s
复制链接

扫一扫