电商项目实战Hadoop实现

最新推荐文章于 2024-09-28 17:39:20 发布

zhaoxiaoba123

最新推荐文章于 2024-09-28 17:39:20 发布

阅读量1.9k

点赞数

分类专栏： Hadoop 文章标签： hadoop 数据库大数据

本文链接：https://blog.csdn.net/zhaoxiaoba123/article/details/108550430

版权

Hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、用户行为日志概述
每一次访问的行为（包括访问，搜索、等）产生的日志
历史行为数据《== 历史订单
==》推荐
==〉订单的转换率
2、为什么要记录用户行为日志
根据行为日志分析可以很好的有针对性的对不同用户推荐不同商品，以及不同广告的推送
在这里插入图片描述
3、日志内容介绍
日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置啊等等信息。
本次我们提供了一个电商日志打～/data/trackinfo_20130721.data
原始日志说明我们需要的：第二个字段=url、第十四个字段=ip、第十八个字段=时间
字段的解析：我们会从ip中解读出国家、省份、城市，从url中解析出页面的id

4、用户行为日志意义分析的所在
根据用户的行为，比如说访问页面，图片，是手机端，还是PC端，耗费流量是多少，地址在哪，可以有效推广运营，比如手机端就比PC端展示消耗服务商的流量要小能省钱又能减小服务器压力，地址在哪就可以分析出人群分布等等。
referer–》你所反问的页面是从那个上端页面来的，比如你在百度打得广告那就要根据这个给钱的

5、电商常用术语
Ad Views 广告浏览就是网上广告被用户浏览的次数
PV 访问量用户每访问一次页面就是一个访问刷新也算
Impression 印象数指广告主希望要求的页面每一次的显示，每看到一次广告就是一次印象。
UV 独立访问数访问的网站或广告，一台电脑被视为一个用户也就是一个访客，24校内相同的客户端只被计算一次
IP 独立IP 24小时内同个IP被计算一次
URL 给出任何服务器上文件、图像等在网上的位置
关键词：
Band Width 带宽在某个时刻能够通过传播线路传输的信息（文字、图片、音、视屏）容量，带宽越高传输越快

6、项目需求描述
页面的浏览量省份的浏览量页面的访问量

7、数据处理流程及技术框架
在这里插入图片描述
8、浏览量统计功能实现

9、省份浏览量统计之IP库解析

10、省份统计之日志解析

11、省份浏览量统计之功能实现

12、页面浏览量统计之页面编号获取
在这里插入图片描述

13、页面浏览量统计之功能实现

14、数据处理过程中ETL的重要性

15、原始日志ETL操作

16、浏览量统计功能升级

17、省份量统计功能升级

18、页面浏览量统计功能实现

19、打包到服务器执行
在这里插入图片描述

到项目目录执行 mvn clean package -DiskTest 打包把打好的包上传到服务器
的～/lib下