【Spark实训】--竞赛网站访问日志分析

置顶

⚆Pearl

已于 2022-04-21 21:11:28 修改

阅读量6.9k

点赞数 13

分类专栏： # 后端实训题 spark 文章标签： spark scala

于 2022-04-17 16:29:10 首次发布

本文链接：https://blog.csdn.net/weixin_58330979/article/details/124229174

版权

该博客介绍了如何使用Spark对竞赛网站的访问日志进行分析，包括搭建Spark工程环境、统计用户数、网页个数和访问量。通过读取日志数据，对网页和用户ID去重，按月统计访问记录，并将结果保存到HDFS。最后，通过Spark-submit提交应用到集群执行。

摘要由CSDN通过智能技术生成

一. 训练要点

二.需求说明

三.关键实现思路及步骤

四、LogCount.scala文件完整代码实现：

五、运行过程与结果截图：

六、具体实现步骤

七、相关知识点

1、过滤出访问次数在 50 次以上的用户记录

2、统计访问 50 次以上的用户主要访问的前 5 类网页

3. 合并部分网页

4.根据访问时间加入对应时段：

实训题目：竞赛网站访问日志分析

一. 训练要点

(1)搭建Spurk工程环境。

(2) Spark编程。

(3)通过spark-submit提交应用。

二.需求说明

某竞赛网站每年都会开展数据挖据的竞赛，在竞赛期间网站会有大量人群访问，生成了大量的用户访向记录。现在提供2016年10月到2017年6月的部分脱敏访问日志数据。日志数据的基本内容如图所示，仅提供以下6个字段。

属性名称	属性解析
Id	序号
Content_id	网页ID
Page_path	网址
Userid	用户ID
Sessionid	缓存生成ID
Date_time	访问时间

要求根据提供的用户访问日志数据，利用Spark技术统计访向的用户数、被访问的不同网页个数以及每月的访问量，并将结果保存到HDFS上。

文章所用文档以及目录等等说明：

（点击可免费下载）访问日志数据: jc_content_viewlog.txt

IDEA内实现代码存储路径与名字：LogCount.scala

jc_content_viewlog.txt 内部分数据如下图：

三.关键实现思路及步骤

(1)配置好Spark的IntelliJ IDEA开发环境。

(2)启动IntelliJ IDEA，并进行Spark编程。

(3)对访向记录中的网页去重，统计本周期内被访问网页的个数。

val logs_all: RDD[Array[String]]  = sc.textFile(args(0)).map{_.split(",")}
val wy_log: RDD[String] = logs_all.map(x=>(x(1).toString)).distinct()
val wy_count:RDD[(String, Int)]= wy_log.map(("wy_zs",_)).groupByKey().map(x => (x._1,x._2.size))

(4) userid为用户注册登录的标

最低0.47元/天解锁文章

⚆Pearl

关注

13
点赞
踩
78

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录