在源数据中有首行属性字段,会对计算有干扰。
如:在统计年龄时,首行字段 年龄为字符串,不能作为年龄来统计,所以需要跳过首先进行计算。
这里使用:
val header = rdd.first()
rdd2 = rdd.filter(_ != header)
使用firs获取首行属性字段,然后再用filter将数据中的首行去掉:
现实统计年龄小于20的代码:
import org.apache.spark.rdd.RDD
import org.apache.spark.{
SparkConf, SparkContext}
object LessThan {
def main(<