【Spark实训】--竞赛网站访问日志分析

该博客介绍了如何使用Spark对竞赛网站的访问日志进行分析,包括搭建Spark工程环境、统计用户数、网页个数和访问量。通过读取日志数据,对网页和用户ID去重,按月统计访问记录,并将结果保存到HDFS。最后,通过Spark-submit提交应用到集群执行。
摘要由CSDN通过智能技术生成

 目录

一. 训练要点

二.需求说明

三.关键实现思路及步骤

 四、LogCount.scala文件完整代码实现:

五、运行过程与结果截图:

​ 六、具体实现步骤

 七、相关知识点 

 1、过滤出访问次数在 50 次以上的用户记录

 2、统计访问 50 次以上的用户主要访问的前 5 类网页

 3. 合并部分网页

 4.根据访问时间加入对应时段:


实训题目:竞赛网站访问日志分析

一. 训练要点

(1)搭建Spurk工程环境。

(2) Spark编程。

(3)通过spark-submit提交应用。

二.需求说明

     某竞赛网站每年都会开展数据挖据的竞赛,在竞赛期间网站会有大量人群访问,生成了大量的用户访向记录。现在提供2016年10月到2017年6月的部分脱敏访问日志数据。日志数据的基本内容如图所示,仅提供以下6个字段。

属性名称

属性解析

Id

序号

Content_id

网页ID

Page_path

网址

Userid

用户ID

Sessionid

缓存生成ID

Date_time

访问时间

     要求根据提供的用户访问日志数据,利用Spark技术统计访向的用户数、被访问的不同网页个数以及每月的访问量,并将结果保存到HDFS上。

文章所用文档以及目录等等说明:

(点击可免费下载)访问日志数据:    jc_content_viewlog.txt

IDEA内实现代码存储路径与名字:LogCount.scala

  jc_content_viewlog.txt   内部分数据如下图:

三.关键实现思路及步骤

(1)配置好Spark的IntelliJ IDEA开发环境。

(2)启动IntelliJ IDEA,并进行Spark编程。

(3)对访向记录中的网页去重,统计本周期内被访问网页的个数。

val logs_all: RDD[Array[String]]  = sc.textFile(args(0)).map{_.split(",")}
val wy_log: RDD[String] = logs_all.map(x=>(x(1).toString)).distinct()
val wy_count:RDD[(String, Int)]= wy_log.map(("wy_zs",_)).groupByKey().map(x => (x._1,x._2.size))

 (4) userid为用户注册登录的标

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

⚆Pearl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值