Spark去掉文本首行属性，计算下文数据

最新推荐文章于 2022-11-12 10:43:13 发布

前方的灯

最新推荐文章于 2022-11-12 10:43:13 发布

阅读量979

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/weixin_44532250/article/details/113395349

版权

博客内容讲述了如何在Spark中处理带有首行属性字段的数据，这些字段可能干扰计算。通过使用`first()`获取首行属性，然后利用`filter()`过滤掉该行，实现了对年龄小于20的统计。这种方法来源于其他专家的分享。

摘要由CSDN通过智能技术生成

在源数据中有首行属性字段，会对计算有干扰。
如：在统计年龄时，首行字段年龄为字符串，不能作为年龄来统计，所以需要跳过首先进行计算。

这里使用：

val header = rdd.first()
rdd2 = rdd.filter(_ != header)

使用firs获取首行属性字段，然后再用filter将数据中的首行去掉：

现实统计年龄小于20的代码：

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   SparkConf, SparkContext}

object LessThan {
   
  def main(<

关注