网站流量日志分析
情深不仅李义山
路漫漫其修远兮,吾将上下而求索.
展开
-
复合级指标分析
在本次指标分析之前,已经把基础级指标都计算好了,并且已经写入数据表:人均浏览页数(平均访问深度)计算方式一:可以直接通过已经计算好的pv,uv值进行计算,某一天的人均浏览页数也就是总的浏览页数/访问人数,即pv/uv,可用下面查询语句实现:select pv/uv as avg_pv from dw_webflow_basic_info where datestr="20181101";计算方式二:可以通过宽表先计算出pv和uv,然后通过子查询,对查出来的结果做除法即可,因为数据的用户字段原创 2020-10-09 20:50:08 · 476 阅读 · 0 评论 -
流量分析常见指标
文章目录基础级指标复合级指标基础级指标PageView浏览次数(PV)用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。Unique Visitor独立访客(UV)1天之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算1次。访问次数(VV)访客从进入网站到离开网站的一系列活动记为一次访问,也称会话(session),1次访问(会话)可能包含多个PV。IP1天之内,访问网站的不重复IP数。一天原创 2020-10-08 20:37:52 · 1242 阅读 · 0 评论 -
建立宽表
文章目录什么是宽表?为什么要创建宽表?创建宽表导入数据什么是宽表?为什么要创建宽表?所谓宽表,就是相对于窄表来说的,在原来表的基础上,把某些字段拓宽,就可以得到宽表。就像我这里的ods_weblog_origin表,time_local字段的值:“2018-11-01 06:49:18”,当某个需求要统计某一天某个小时的访问量的时候,使用这个显然显得不方便,所以要建立宽表,方便后面的计算使用。我这里把ods_weblog_origin表进行拓宽,把time_local和http_referer两个字段进原创 2020-10-08 20:08:08 · 2388 阅读 · 0 评论 -
hive中的explode和lateral view的使用
expolde的使用expolde是一个典型的UDTF函数(一进多出),通过以下例子来快速了解expolde函数的使用:create table test_message(id int,name string,location array<string>,city array<int>) row format delimited fields terminated by ","collection items terminated by '|';--准备如下数据001..原创 2020-10-08 18:14:46 · 205 阅读 · 0 评论 -
在原始数据层创建表格并导入数据
ODS层设计了三个表格,分别是ods_weblog_origin(原始日志表),ods_click_pageviews(点击模型表),ods_click_stream_visit(点击流模型表),建表语句如下:create table ods_weblog_origin(valid string,remote_addr string,remote_user string,time_local string,request string,status string,body_bytes_sen原创 2020-10-08 17:10:39 · 268 阅读 · 0 评论 -
建立数仓
数据仓库的建立一般都是分层建立的,那么应该分几层比较合理呢?这个就要结合业务和项目规模,我这里因为项目不大,就建立三层,分别是原始数据层(ODS),数据仓库层(DW)和数据应用层(APP)。数仓设计维度建模以维度为标准 开展数据的分析需求适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP)事实表分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件往往是一堆主键的聚集 维度表所谓的维度就是指看待问题的角度 可以通过不原创 2020-10-08 17:01:15 · 158 阅读 · 2 评论