1、用户行为日志概述
每一次访问的行为(包括访问,搜索、等)产生的日志
历史行为数据 《== 历史订单
==》推荐
==〉订单的转换率
2、为什么要记录用户行为日志
根据行为日志分析可以很好的有针对性的对不同用户推荐不同商品,以及不同广告的推送
3、日志内容介绍
日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置啊等等信息。
本次我们提供了一个电商日志打~/data/trackinfo_20130721.data
原始日志说明我们需要的:第二个字段=url、第十四个字段=ip、第十八个字段=时间
字段的解析:我们会从ip中解读出国家、省份、城市,从url中解析出页面的id
4、用户行为日志意义分析的所在
根据用户的行为,比如说访问页面,图片,是手机端,还是PC端,耗费流量是多少,地址在哪,可以有效推广运营,比如手机端就比PC端展示消耗服务商的流量要小能省钱又能减小服务器压力,地址在哪就可以分析出人群分布等等。
referer–》你所反问的页面是从那个上端页面来的,比如你在百度打得广告那就要根据这个给钱的
5、电商常用术语
Ad Views 广告浏览 就是网上广告被用户浏览的次数
PV 访问量 用户每访问一次页面就是一个访问 刷新也算
Impression 印象数 指广告主希望要求的页面每一次的显示,每看到一次广告就是一次印象。
UV 独立访问数 访问的网站或广告,一台电脑被视为一个用户也就是一个访客,24校内相同的客户端只被计算一次
IP 独立IP 24小时内同个IP被计算一次
URL 给出任何服务器上 文件、图像等在网上的位置
关键词:
Band Width 带宽 在某个时刻能够通过传播线路传输的信息(文字、图片、音、视屏)容量,带宽越高传输越快
6、项目需求描述
页面的浏览量 省份的浏览量 页面的访问量
7、数据处理流程及技术框架
8、浏览量统计功能实现
9、省份浏览量统计之IP库解析
10、省份统计之日志解析
11、省份浏览量统计之功能实现
12、页面浏览量统计之页面编号获取
13、页面浏览量统计之功能实现
14、数据处理过程中ETL的重要性
15、原始日志ETL操作
16、浏览量统计功能升级
17、省份量统计功能升级
18、页面浏览量统计功能实现
19、打包到服务器执行
到项目目录 执行 mvn clean package -DiskTest 打包 把打好的包上传到服务器
的~/lib下
然后把ip解析文件传输到服务器目录自己定吧
原始文件上传到服务器HDFS,上传到那个目录参数指定时指定那个
编辑执行脚本如下