大数据小demo-TOP统计dongsi地区PM值最高的几个月份

最新推荐文章于 2022-01-04 19:26:19 发布

程序猿与汪

最新推荐文章于 2022-01-04 19:26:19 发布

阅读量221

点赞数

分类专栏： demo 文章标签： spark 大数据 hadoop scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45154559/article/details/106294238

版权

demo 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录标题

数据结构概览:
流程梳理:
代码实现

数据结构概览:

在这里插入图片描述

流程梳理:

1.读取文件
2.抽取需要的列
3.以年月为基础,进行reduceByKey统计dongsi地区的PM
4.排序
5.获取结果

代码实现

package cn.ityuge.spark.rdd

import org.apache.ivy.util.StringUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.junit.Test

class PmDataStatistic {
  @Test
  def pmProcess: Unit ={
    val conf = new SparkConf().setAppName("pmDataStatistic").setMaster("local")
    val sc = new SparkContext(conf)
    //1.读取文件
    val source = sc.textFile("file:///C:\\Users\\monster\\Desktop\\my_code\\spark\\data\\BeijingPM20100101_20151231_noheader.csv")
    //2.算子处理
    val resultData = source.map(item => ((item.split(",")(1), item.split(",")(2)), item.split(",")(6)))
      .filter(item => ! item._2.isEmpty && ! item._2.equalsIgnoreCase("NA") )
      .map(item=>(item._1,item._2.toInt))
      .reduceByKey((curr,agg)=>curr+agg)
      .sortBy(item=>item._2,ascending = false)

    resultData.take(10).foreach(item=>println(item))
}

}

程序猿与汪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据小demo-TOP统计dongsi地区PM值最高的几个月份

目录标题数据结构概览:流程梳理:代码实现数据结构概览:流程梳理:1.读取文件2.抽取需要的列3.以年月为基础,进行reduceByKey统计dongsi地区的PM4.排序5.获取结果代码实现package cn.ityuge.spark.rddimport org.apache.ivy.util.StringUtilsimport org.apache.spark.{SparkConf, SparkContext}import org.junit.Testclass PmDa
复制链接

扫一扫

专栏目录

程序猿与汪 CSDN认证博客专家 CSDN认证企业博客

码龄5年

146: 原创

24万+: 周排名

156万+: 总排名

12万+: 访问

: 等级

2272: 积分

36: 粉丝

67: 获赞

27: 评论

328: 收藏

私信

关注

热门文章

分类专栏

maven配置管理 4篇
企业级通用大数据平台 3篇
智慧出行 25篇
千亿级数仓 1篇
Utils 13篇
Spark 12篇
scala 6篇
Hbase 7篇
flume
redis 4篇
Kafka 10篇
Hive 6篇
zookeeper 3篇
Hadoop 8篇
BigData FAQ Summary 12篇
demo 2篇
python 12篇
Mysql 3篇
java 29篇
java-web 7篇

最新评论

疑难杂症-mysql字段设置为varchar时,不能输入中文
真是一只小小白呀: 谢谢！！！！！！！！！！！！！！！！！！！！！！！！！！！！！第一个就解决了
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
柳暗花明又一cun: 命令你执行成功了吗？pip install dataclasses
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
一只大胖子？: File "D:\lcj\python\Scripts\pip-script.py", line 11, in <module> load_entry_point('pip==22.1.2', 'console_scripts', 'pip')() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 565, in load_entry_point return get_distribution(dist).load_entry_point(group, name) File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2631, in load_entry_point return ep.load() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2291, in load return self.resolve() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2297, in resolve module = __import__(self.module_name, fromlist=['__name__'], level=0) File "D:\lcj\python\lib\site-packages\pip-22.1.2-py3.6.egg\pip\_internal\cli\main.py", line 9, in <module> from pip._internal.cli.autocompletion import autocomplete File "D:\lcj\python\lib\site-packages\pip-22.1.2-py3.6.egg\pip\_internal\cli\autocompletion.py", line 10, in <module> from pip._intern
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
一只大胖子？: 我这边怎么不行？
java-Object类的equals方法以及Objects类的equals方
港岛森林、: 请问当使用Objects中的equals，a和b均不为空的时候，比较的是什么啊？还是地址值吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。