![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
demo
三生三世
程序猿与汪
一枚专注于大数据领域知识的程序汪
展开
-
大数据小demo-TOP统计dongsi地区PM值最高的几个月份
目录标题数据结构概览:流程梳理:代码实现数据结构概览:流程梳理:1.读取文件2.抽取需要的列3.以年月为基础,进行reduceByKey统计dongsi地区的PM4.排序5.获取结果代码实现package cn.ityuge.spark.rddimport org.apache.ivy.util.StringUtilsimport org.apache.spark.{SparkConf, SparkContext}import org.junit.Testclass PmDa原创 2020-05-23 01:39:01 · 221 阅读 · 0 评论 -
大数据小demo- 对网页后台日志中的日志数据做统计,统计独立ip数量,Top10
目录标题日志的数据结构概览:实现逻辑梳理:代码实现:日志的数据结构概览:实现逻辑梳理:取出IP,生成一个只有IP的数据集简单清洗聚合:统计ip出现次数按照ip出现次数排序,取出前十代码实现:创建AcesslogAgg类实现上述需求package cn.ityuge.spark.rddimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.junit.原创 2020-05-22 00:20:22 · 332 阅读 · 0 评论