大数据小demo- 对网页后台日志中的日志数据做统计,统计独立ip数量,Top10

最新推荐文章于 2020-12-06 01:43:06 发布

程序猿与汪

最新推荐文章于 2020-12-06 01:43:06 发布

阅读量337

点赞数

分类专栏： demo 文章标签： spark 大数据 hadoop hive python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45154559/article/details/106269849

版权

demo 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录标题

日志的数据结构概览:
实现逻辑梳理:
代码实现:

日志的数据结构概览:

在这里插入图片描述

实现逻辑梳理:

取出IP,生成一个只有IP的数据集
简单清洗
聚合:统计ip出现次数
按照ip出现次数排序,取出前十

代码实现:

创建AcesslogAgg类实现上述需求

package cn.ityuge.spark.rdd


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.junit.Test


class AccessLogAgg {
  @Test
  def ipAgg: Unit ={
    //1.spark入口
    val conf = new SparkConf().setMaster("local[6]").setAppName("ip_agg")
    val sc = new SparkContext(conf)
    //2.读取文件,得到数据集
    val rdd: RDD[String] = sc.textFile("file:///C:\\Users\\monster\\Desktop\\my_code\\spark\\data\\access_log_sample.txt")
    //3.获取指定的ip数据集,并在每个后面加1
    val rdd1 = rdd.map(item => (item.split(" ")(0),1))
    //4 简单清洗
    //4.1去除空的ip字段
    // ....这里可以写很多的生产上的业务逻辑
    val clearRdd = rdd1.filter(item=> !item._1.isEmpty)
    //聚合
    val aggRDD = clearRdd.reduceByKey((curr,age)=>curr+age)
    //排序
    val sortedRDD = aggRDD.sortBy(item =>item._2,ascending = false)
    sortedRDD.take(10).foreach(item=>println(item))
  }
}

程序猿与汪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

程序猿与汪 CSDN认证博客专家 CSDN认证企业博客

码龄5年

146: 原创

24万+: 周排名

67万+: 总排名

14万+: 访问

: 等级

2348: 积分

36: 粉丝

68: 获赞

27: 评论

328: 收藏

私信

关注

热门文章

分类专栏

maven配置管理 4篇
企业级通用大数据平台 3篇
智慧出行 25篇
千亿级数仓 1篇
Utils 13篇
Spark 12篇
scala 6篇
Hbase 7篇
flume
redis 4篇
Kafka 10篇
Hive 6篇
zookeeper 3篇
Hadoop 8篇
BigData FAQ Summary 12篇
demo 2篇
python 12篇
Mysql 3篇
java 29篇
java-web 7篇

最新评论

疑难杂症-mysql字段设置为varchar时,不能输入中文
真是一只小小白呀: 谢谢！！！！！！！！！！！！！！！！！！！！！！！！！！！！！第一个就解决了
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
柳暗花明又一cun: 命令你执行成功了吗？pip install dataclasses
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
一只大胖子？: File "D:\lcj\python\Scripts\pip-script.py", line 11, in <module> load_entry_point('pip==22.1.2', 'console_scripts', 'pip')() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 565, in load_entry_point return get_distribution(dist).load_entry_point(group, name) File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2631, in load_entry_point return ep.load() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2291, in load return self.resolve() File "D:\lcj\python\lib\site-packages\pkg_resources\__init__.py", line 2297, in resolve module = __import__(self.module_name, fromlist=['__name__'], level=0) File "D:\lcj\python\lib\site-packages\pip-22.1.2-py3.6.egg\pip\_internal\cli\main.py", line 9, in <module> from pip._internal.cli.autocompletion import autocomplete File "D:\lcj\python\lib\site-packages\pip-22.1.2-py3.6.egg\pip\_internal\cli\autocompletion.py", line 10, in <module> from pip._intern
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
一只大胖子？: 我这边怎么不行？
java-Object类的equals方法以及Objects类的equals方
港岛森林、: 请问当使用Objects中的equals，a和b均不为空的时候，比较的是什么啊？还是地址值吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。