大数据小demo-TOP统计dongsi地区PM值最高的几个月份

数据结构概览:

在这里插入图片描述

流程梳理:

1.读取文件
2.抽取需要的列
3.以年月为基础,进行reduceByKey统计dongsi地区的PM
4.排序
5.获取结果

代码实现

package cn.ityuge.spark.rdd

import org.apache.ivy.util.StringUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.junit.Test

class PmDataStatistic {
  @Test
  def pmProcess: Unit ={
    val conf = new SparkConf().setAppName("pmDataStatistic").setMaster("local")
    val sc = new SparkContext(conf)
    //1.读取文件
    val source = sc.textFile("file:///C:\\Users\\monster\\Desktop\\my_code\\spark\\data\\BeijingPM20100101_20151231_noheader.csv")
    //2.算子处理
    val resultData = source.map(item => ((item.split(",")(1), item.split(",")(2)), item.split(",")(6)))
      .filter(item => ! item._2.isEmpty && ! item._2.equalsIgnoreCase("NA") )
      .map(item=>(item._1,item._2.toInt))
      .reduceByKey((curr,agg)=>curr+agg)
      .sortBy(item=>item._2,ascending = false)

    resultData.take(10).foreach(item=>println(item))
}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值